traitement contenu web

Question

Bonjour,En fait je voudrais pouvoir checker plusieurs raccourcis web d'un coup (comme les favoris) et analyser le contenu (présence d'une chaine de caractère spécifique ect...) et si tel groupe de mot est détecté alors déplacer chaque lien dans un dossier spécifique... c'est une procédure toute simple sauf que je sais pas comme faire l'analyse des pages web... :ssi vous avez un p'tit programme qui peut faire l'affaire ;)ca m'aiderai beaucoup :D Merdi d'avance

sebsauvage · Answer

Pour le traitement automatisé de pages web, j'utilise du Python.(par exemple dans Webgobbler)Pour décortiquer les pages web, on peut prendre les expressions régulières, ou des modules spécifiques pour traiter l'html, comme BeautifulSoup (capable de lire les pages html males formées)

samsaph · Answer

ok...webgobbler c cool et beautifulsoup j'ai pas trouvé bcp d'info dessus :scela dis merci qd meme ;)mais si je veux me faire mon petit programme (malgré mes connaissances plus que basiques en prog) pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?entk je cherche toujours un moyen rapide pour faire ca, j'ai bien trouver un petit programme (Right Web Monitor)  mais il se fait bloquer au moment de se logger et on ne peut pas importer plusieurs raccourcis web a la fois... ce qui est nul parce que si je dois ajouter mes 2500 links un par un en modifiant les options pour chacun et je vais plus vite a faire le boulot moi meme lolMerci encore si vous avez des pistes supplémentaires

sebsauvage · Answer

pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ? Parceque c'est plus simple à programmer.Exemple:Extraire le titre de la dernière actualité publiée sur CCM:import urllib, BeautifulSouppage = urllib.urlopen('https://www.commentcamarche.net/actualites/').read()soup = BeautifulSoup.BeautifulSoup(page)print soup.findAll("a", { "class" : "TitreActu" })[1].string(Il faut bien entendu avoir installé le module BeautifoulSoup ; voir https://www.crummy.com/software/BeautifulSoup/ )

sebsauvage · Answer

Si tu veux des explications sur ce code, il suffit de demander :-)(mais pas trop tard, je pars en vacances en fin d'après-midi)

Traitement contenu web

4 réponses

Discussions similaires

Newsletters