Traitement de texte en Python

jooshig Messages postés 40 Date d'inscription   Statut Membre Dernière intervention   -  
sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention   -
Bonjour,

Je voudrais faire un programme en Python pour automatiser l'extraction du texte de certaines pages web et les ajouter à la suite d'un texte préexistant.

Je vise d'abord de réaliser le processus élémentaire suivant. Ensuite, je pourrai complexifier.

Dans la page http://www.boursorama.com/forum/message.phtml?file=354639372&pageForum=1 , je voudrais extraire le texte " tjrs pas de news, imressionnant la communication de cette entreprise" et le coller à la suite d'un texte dans un fichier WordPad.

Le petit programme suivant permet de placer le code HTML de la page web en question dans un objet htmlSource:
>>> import urllib
>>> sock = urllib.urlopen("https://www.boursorama.com/bourse/forum/")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource


Ensuite, je ne sais plus quoi faire.

Existe-t-il un module Python permettant de transférer le texte de l'objet html Source vers un fichier WordPad ?
Soit dit en passant, je ne sais pas quelle est la nature de l'objet htmlSource. Est-ce un fichier texte ? De quel format ?.....

Existe-il un module Python permettant de manipuler le texte contenu dans un fichier texte, que ce soit htmlSource (si c'est un fichier texte) ou mon fichier WordPad ?
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent. Du traitement texte quoi: copier/coller, déplacement, effacement, recherche de caractères.... Mais effectué de façon automatisé par un programme Python.

J'ai passé des heures en recherche. J'ai trouvé des références à cStringIO, à xml.sax.saxutils, à xml.dom.minidom ...... Mais je n'arrive pas à comprendre ce que font ces trucs. Je voudrais eviter de passer des heures a essayer de comprendre ce que fait tel ou tel module et m'apercevoir que cela ne me servira a rien. Je n'ai trouve nulle part de descriptif clair des modules Python.

Merci pour tout tuyau, indication, aide ....

2 réponses

zak
 
Salut,


Juste pour infos je ne suis pas un crack sur python mais il y a en vente actuellement un magazine de progammation
Qui traite sur Python et il y a un article sur la manipulation des Fichiers.

Alors Bonne chance
0
sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention   15 662
 
quelle est la nature de l'objet htmlSource

Un code source html (<html>...)


transférer le texte de l'objet html Source vers un fichier WordPad ?

WordPad ne sait pas lire le format HTML.


Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent.

Il existe plusieurs méthodes.
Voici un exemple: récupérer tous les liens d'une page HTML:
https://sebsauvage.net/python/snyppets/index.html#getlinks1
https://sebsauvage.net/python/snyppets/index.html#getlinks2
https://sebsauvage.net/python/snyppets/index.html#getlinks3
https://sebsauvage.net/python/snyppets/index.html#getlinks4


J'ai déjà programmé de nombreuses fois l'extraction automatique de données de pages web.
Tu trouvera des exemples dans https://sebsauvage.net/python/snyppets/
0