Traitement contenu web

Fermé
samsaph Messages postés 10 Date d'inscription lundi 29 mai 2006 Statut Membre Dernière intervention 24 août 2006 - 10 juil. 2006 à 17:34
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 - 13 juil. 2006 à 14:31
Bonjour,

En fait je voudrais pouvoir checker plusieurs raccourcis web d'un coup (comme les favoris) et analyser le contenu (présence d'une chaine de caractère spécifique ect...) et si tel groupe de mot est détecté alors déplacer chaque lien dans un dossier spécifique...

c'est une procédure toute simple sauf que je sais pas comme faire l'analyse des pages web... :s

si vous avez un p'tit programme qui peut faire l'affaire ;)

ca m'aiderai beaucoup :D Merdi d'avance

4 réponses

sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 659
10 juil. 2006 à 20:20
Pour le traitement automatisé de pages web, j'utilise du Python.
(par exemple dans Webgobbler)

Pour décortiquer les pages web, on peut prendre les expressions régulières, ou des modules spécifiques pour traiter l'html, comme BeautifulSoup (capable de lire les pages html males formées)
0
samsaph Messages postés 10 Date d'inscription lundi 29 mai 2006 Statut Membre Dernière intervention 24 août 2006
13 juil. 2006 à 13:29
ok...
webgobbler c cool et beautifulsoup j'ai pas trouvé bcp d'info dessus :s
cela dis merci qd meme ;)

mais si je veux me faire mon petit programme (malgré mes connaissances plus que basiques en prog) pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?

entk je cherche toujours un moyen rapide pour faire ca, j'ai bien trouver un petit programme (Right Web Monitor) mais il se fait bloquer au moment de se logger et on ne peut pas importer plusieurs raccourcis web a la fois...
ce qui est nul parce que si je dois ajouter mes 2500 links un par un en modifiant les options pour chacun et je vais plus vite a faire le boulot moi meme lol

Merci encore si vous avez des pistes supplémentaires
0
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 659
13 juil. 2006 à 14:23
pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?

Parceque c'est plus simple à programmer.

Exemple:
Extraire le titre de la dernière actualité publiée sur CCM:
import urllib, BeautifulSoup
page = urllib.urlopen('https://www.commentcamarche.net/actualites/').read()
soup = BeautifulSoup.BeautifulSoup(page)
print soup.findAll("a", { "class" : "TitreActu" })[1].string


(Il faut bien entendu avoir installé le module BeautifoulSoup ; voir https://www.crummy.com/software/BeautifulSoup/ )
0
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 659
13 juil. 2006 à 14:31
Si tu veux des explications sur ce code, il suffit de demander :-)

(mais pas trop tard, je pars en vacances en fin d'après-midi)
0