Analyse de page web en Python
Fermé
MisterJA
Messages postés
5
Date d'inscription
jeudi 13 décembre 2007
Statut
Membre
Dernière intervention
3 janvier 2008
-
14 déc. 2007 à 07:14
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 - 14 déc. 2007 à 11:04
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 - 14 déc. 2007 à 11:04
Bonjour à tous
Je suis débutant en la matière et j'aurais besoin de récupérer des informations contenu dans des sites web ( liens, tags, adresses, webmasters... ) en Python.
J'ai télécharger HTTrack ( ne sachant pas vraiment si cela allait m'aider ^^ ).
J'aurais donc besoin d'un programme Python me permettant d'analyser les pages web.
Merci d'avance
Je suis débutant en la matière et j'aurais besoin de récupérer des informations contenu dans des sites web ( liens, tags, adresses, webmasters... ) en Python.
J'ai télécharger HTTrack ( ne sachant pas vraiment si cela allait m'aider ^^ ).
J'aurais donc besoin d'un programme Python me permettant d'analyser les pages web.
Merci d'avance
A voir également:
- Analyse de page web en Python
- Web office - Guide
- Supprimer une page word - Guide
- Traduire une page web - Guide
- Capture page web - Guide
- Mettre google en page d'accueil - Guide
1 réponse
sebsauvage
Messages postés
32893
Date d'inscription
mercredi 29 août 2001
Statut
Modérateur
Dernière intervention
21 octobre 2019
15 662
14 déc. 2007 à 11:04
14 déc. 2007 à 11:04
Comme je l'ai dit, j'ai mis des exemples là: https://sebsauvage.net/python/snyppets/index.html
Sachant que les 2 grosses parties sont:
- la récupération de la page web (urllib2)
- l'examen du code HTML pour en extraire ce qui t'intéresse (liens, tags, etc.).
Le premier point ne pose pas de problème majeur.
Le second non plus, mais il existe plusieurs méthodes pour examiner le code source HTML d'une page.
BeautifulSoup a l'avantage d'être relativement clair et se débrouille très bien avec les pages HTML très mal formattées. En revanche il est lent.
Les expressions régulières sont rapides, mais les écrire peut parfois être délicat pour ne pas rater certains cas.
Les autres parseurs HTML (SAX, DOM/minidom) marchent aussi, mais n'aime pas le code HTML "incorrecte" qu'on trouve habituellement sur le web.
Enfin, le javascript complique la tâche (on trouve de plus en plus de javascript qui modifie en directe le code HTML).
Sachant que les 2 grosses parties sont:
- la récupération de la page web (urllib2)
- l'examen du code HTML pour en extraire ce qui t'intéresse (liens, tags, etc.).
Le premier point ne pose pas de problème majeur.
Le second non plus, mais il existe plusieurs méthodes pour examiner le code source HTML d'une page.
BeautifulSoup a l'avantage d'être relativement clair et se débrouille très bien avec les pages HTML très mal formattées. En revanche il est lent.
Les expressions régulières sont rapides, mais les écrire peut parfois être délicat pour ne pas rater certains cas.
Les autres parseurs HTML (SAX, DOM/minidom) marchent aussi, mais n'aime pas le code HTML "incorrecte" qu'on trouve habituellement sur le web.
Enfin, le javascript complique la tâche (on trouve de plus en plus de javascript qui modifie en directe le code HTML).