Traitement contenu web

samsaph Messages postés 10 Statut Membre -  
sebsauvage Messages postés 33415 Statut Modérateur -
Bonjour,

En fait je voudrais pouvoir checker plusieurs raccourcis web d'un coup (comme les favoris) et analyser le contenu (présence d'une chaine de caractère spécifique ect...) et si tel groupe de mot est détecté alors déplacer chaque lien dans un dossier spécifique...

c'est une procédure toute simple sauf que je sais pas comme faire l'analyse des pages web... :s

si vous avez un p'tit programme qui peut faire l'affaire ;)

ca m'aiderai beaucoup :D Merdi d'avance

4 réponses

sebsauvage Messages postés 33415 Statut Modérateur 15 667
 
Pour le traitement automatisé de pages web, j'utilise du Python.
(par exemple dans Webgobbler)

Pour décortiquer les pages web, on peut prendre les expressions régulières, ou des modules spécifiques pour traiter l'html, comme BeautifulSoup (capable de lire les pages html males formées)
0
samsaph Messages postés 10 Statut Membre
 
ok...
webgobbler c cool et beautifulsoup j'ai pas trouvé bcp d'info dessus :s
cela dis merci qd meme ;)

mais si je veux me faire mon petit programme (malgré mes connaissances plus que basiques en prog) pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?

entk je cherche toujours un moyen rapide pour faire ca, j'ai bien trouver un petit programme (Right Web Monitor) mais il se fait bloquer au moment de se logger et on ne peut pas importer plusieurs raccourcis web a la fois...
ce qui est nul parce que si je dois ajouter mes 2500 links un par un en modifiant les options pour chacun et je vais plus vite a faire le boulot moi meme lol

Merci encore si vous avez des pistes supplémentaires
0
sebsauvage Messages postés 33415 Statut Modérateur 15 667
 
pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?

Parceque c'est plus simple à programmer.

Exemple:
Extraire le titre de la dernière actualité publiée sur CCM:
import urllib, BeautifulSoup
page = urllib.urlopen('https://www.commentcamarche.net/actualites/').read()
soup = BeautifulSoup.BeautifulSoup(page)
print soup.findAll("a", { "class" : "TitreActu" })[1].string


(Il faut bien entendu avoir installé le module BeautifoulSoup ; voir https://www.crummy.com/software/BeautifulSoup/ )
0
sebsauvage Messages postés 33415 Statut Modérateur 15 667
 
Si tu veux des explications sur ce code, il suffit de demander :-)

(mais pas trop tard, je pars en vacances en fin d'après-midi)
0