[Python] HTML Parser

Question

Salut à tous ! je me met doucement au Python pour créer un parser. En fait pour essayer d'etre clair je souhaiterais récuperer l'ensemble du contenu d'une page html se trouvant entre deux tags spécifiques: C'est blalalblalabalbalbalablabalbalbal

blabla

blalalblalabalbalbalablabalbalbal Ici le tag de début : Tag de fin : Etant tout débutant qqu accepterait il de me montrer un code qui saurait faire ca ? sachant que j'ai en local le fichier .html contenant l'ensemble et que je souhaite creer un fichier output.html ne contenant que ce qui se présente entre les deux tags précités. Merci par avance de toute l'aide que vous pourrez m'apporter !

sebsauvage · Accepted Answer

J'ai donné un exemple pour récupérer tout ce qui se trouve entre 2 tags précis sans utiliser ni expressions régulières ni HTMLParser.http://www.commentcamarche.net/forum/affich-655749-%5BPython%5D-HTML-parsing#15

sebsauvage · Answer

Hello !Tu as 3 solutions:- utiliser la simple recherche de chaînes (.find(), etc.)- utiliser les expressions régulières- utiliser HTMLParserPour les expressions régulières et le HTMLParser, j'ai mis des exemples là:http://sebsauvage.net/python/snyppets/index.html#getlinks1Note que la solution avec le .find() peut dans certains cas être beaucoup plus rapide que les 2 autres.Il y a également un sujet de discussion sur ça ici:http://www.commentcamarche.net/forum/affich-655749-%5BPython%5D-HTML-parsinghttp://www.commentcamarche.net/forum/affich-648645-%5BPython%5D-HTMLParser-Handle_StartTaghttp://www.commentcamarche.net/forum/affich-289535-%5BPython%5D-Extractions-de-liens-d%27une-page-web

psykotrop · Answer

Comment adapter ton dernier exemple : # Nos données à tester: data = """aaaabbbccc Encore un autre ! dddd""" en utilisant un fichier a la place du data= ?

sebsauvage · Answer

Ben... tu ouvre le fichier !file = open("monfichier.dat","rb")data = file.read()file.close()(à condition que le fichier tienne en mémoire).

psykotrop · Answer

merci beaucoup ca marche nikel avec l'ouverture de fichier !

psykotrop · Answer

Petite autre question. Dans le bout de fichier que je récupere j'ai des tags style

Comment les supprimer du fichier ? histoire d'etre propre. Il serait bon de faire une analyse ligne par ligne et remplacer par rien non ? mais je ne sais pas comment faire. Sachant qu'un tag "

" sur une ligne n'est pas un tag "
" sur une autre ca je veux le conserver :) difficile de s'expliquer je donne un exemple : texte1

chanteur pour obtenir : texte1
chanteur en supprimant par ligne : tous les "" et "

"

sebsauvage · Answer

Dans ce cas, tu peux prendre HTMLParser et: - implémenter handle_data() pour récupérer uniquement le texte entre les balides. - implémenter handle_starttag() et ajouter seulement un retour à la ligne " " quand tu rencontre
. Ainsi, le parseur va automatiquement "nettoyer" ton fichier HTML de toutes les balises. (Voir les liens que j'ai donné: ils contiennent des exemples de HTMLParser.)

[Python] HTML Parser

7 réponses

Discussions similaires

Newsletters