Traitement contenu web
Fermé
samsaph
Messages postés
10
Date d'inscription
lundi 29 mai 2006
Statut
Membre
Dernière intervention
24 août 2006
-
10 juil. 2006 à 17:34
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 - 13 juil. 2006 à 14:31
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 - 13 juil. 2006 à 14:31
A voir également:
- Traitement contenu web
- Web office - Guide
- Word a trouvé du contenu illisible - Guide
- Adresse web - Guide
- Traduire une page web - Guide
- Le fichier à télécharger correspond au contenu brut d’un courrier électronique. de quel pays a été envoyé ce message ? - Guide
4 réponses
sebsauvage
Messages postés
32893
Date d'inscription
mercredi 29 août 2001
Statut
Modérateur
Dernière intervention
21 octobre 2019
15 659
10 juil. 2006 à 20:20
10 juil. 2006 à 20:20
Pour le traitement automatisé de pages web, j'utilise du Python.
(par exemple dans Webgobbler)
Pour décortiquer les pages web, on peut prendre les expressions régulières, ou des modules spécifiques pour traiter l'html, comme BeautifulSoup (capable de lire les pages html males formées)
(par exemple dans Webgobbler)
Pour décortiquer les pages web, on peut prendre les expressions régulières, ou des modules spécifiques pour traiter l'html, comme BeautifulSoup (capable de lire les pages html males formées)
samsaph
Messages postés
10
Date d'inscription
lundi 29 mai 2006
Statut
Membre
Dernière intervention
24 août 2006
13 juil. 2006 à 13:29
13 juil. 2006 à 13:29
ok...
webgobbler c cool et beautifulsoup j'ai pas trouvé bcp d'info dessus :s
cela dis merci qd meme ;)
mais si je veux me faire mon petit programme (malgré mes connaissances plus que basiques en prog) pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?
entk je cherche toujours un moyen rapide pour faire ca, j'ai bien trouver un petit programme (Right Web Monitor) mais il se fait bloquer au moment de se logger et on ne peut pas importer plusieurs raccourcis web a la fois...
ce qui est nul parce que si je dois ajouter mes 2500 links un par un en modifiant les options pour chacun et je vais plus vite a faire le boulot moi meme lol
Merci encore si vous avez des pistes supplémentaires
webgobbler c cool et beautifulsoup j'ai pas trouvé bcp d'info dessus :s
cela dis merci qd meme ;)
mais si je veux me faire mon petit programme (malgré mes connaissances plus que basiques en prog) pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?
entk je cherche toujours un moyen rapide pour faire ca, j'ai bien trouver un petit programme (Right Web Monitor) mais il se fait bloquer au moment de se logger et on ne peut pas importer plusieurs raccourcis web a la fois...
ce qui est nul parce que si je dois ajouter mes 2500 links un par un en modifiant les options pour chacun et je vais plus vite a faire le boulot moi meme lol
Merci encore si vous avez des pistes supplémentaires
sebsauvage
Messages postés
32893
Date d'inscription
mercredi 29 août 2001
Statut
Modérateur
Dernière intervention
21 octobre 2019
15 659
13 juil. 2006 à 14:23
13 juil. 2006 à 14:23
pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?
Parceque c'est plus simple à programmer.
Exemple:
Extraire le titre de la dernière actualité publiée sur CCM:
(Il faut bien entendu avoir installé le module BeautifoulSoup ; voir https://www.crummy.com/software/BeautifulSoup/ )
Parceque c'est plus simple à programmer.
Exemple:
Extraire le titre de la dernière actualité publiée sur CCM:
import urllib, BeautifulSoup page = urllib.urlopen('https://www.commentcamarche.net/actualites/').read() soup = BeautifulSoup.BeautifulSoup(page) print soup.findAll("a", { "class" : "TitreActu" })[1].string
(Il faut bien entendu avoir installé le module BeautifoulSoup ; voir https://www.crummy.com/software/BeautifulSoup/ )
sebsauvage
Messages postés
32893
Date d'inscription
mercredi 29 août 2001
Statut
Modérateur
Dernière intervention
21 octobre 2019
15 659
13 juil. 2006 à 14:31
13 juil. 2006 à 14:31
Si tu veux des explications sur ce code, il suffit de demander :-)
(mais pas trop tard, je pars en vacances en fin d'après-midi)
(mais pas trop tard, je pars en vacances en fin d'après-midi)