Traitement de texte en Python
jooshig
Messages postés
40
Date d'inscription
Statut
Membre
Dernière intervention
-
sebsauvage Messages postés 32893 Date d'inscription Statut Modérateur Dernière intervention -
sebsauvage Messages postés 32893 Date d'inscription Statut Modérateur Dernière intervention -
Bonjour,
Je voudrais faire un programme en Python pour automatiser l'extraction du texte de certaines pages web et les ajouter à la suite d'un texte préexistant.
Je vise d'abord de réaliser le processus élémentaire suivant. Ensuite, je pourrai complexifier.
Dans la page http://www.boursorama.com/forum/message.phtml?file=354639372&pageForum=1 , je voudrais extraire le texte " tjrs pas de news, imressionnant la communication de cette entreprise" et le coller à la suite d'un texte dans un fichier WordPad.
Le petit programme suivant permet de placer le code HTML de la page web en question dans un objet htmlSource:
>>> import urllib
>>> sock = urllib.urlopen("https://www.boursorama.com/bourse/forum/")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource
Ensuite, je ne sais plus quoi faire.
Existe-t-il un module Python permettant de transférer le texte de l'objet html Source vers un fichier WordPad ?
Soit dit en passant, je ne sais pas quelle est la nature de l'objet htmlSource. Est-ce un fichier texte ? De quel format ?.....
Existe-il un module Python permettant de manipuler le texte contenu dans un fichier texte, que ce soit htmlSource (si c'est un fichier texte) ou mon fichier WordPad ?
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent. Du traitement texte quoi: copier/coller, déplacement, effacement, recherche de caractères.... Mais effectué de façon automatisé par un programme Python.
J'ai passé des heures en recherche. J'ai trouvé des références à cStringIO, à xml.sax.saxutils, à xml.dom.minidom ...... Mais je n'arrive pas à comprendre ce que font ces trucs. Je voudrais eviter de passer des heures a essayer de comprendre ce que fait tel ou tel module et m'apercevoir que cela ne me servira a rien. Je n'ai trouve nulle part de descriptif clair des modules Python.
Merci pour tout tuyau, indication, aide ....
Je voudrais faire un programme en Python pour automatiser l'extraction du texte de certaines pages web et les ajouter à la suite d'un texte préexistant.
Je vise d'abord de réaliser le processus élémentaire suivant. Ensuite, je pourrai complexifier.
Dans la page http://www.boursorama.com/forum/message.phtml?file=354639372&pageForum=1 , je voudrais extraire le texte " tjrs pas de news, imressionnant la communication de cette entreprise" et le coller à la suite d'un texte dans un fichier WordPad.
Le petit programme suivant permet de placer le code HTML de la page web en question dans un objet htmlSource:
>>> import urllib
>>> sock = urllib.urlopen("https://www.boursorama.com/bourse/forum/")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource
Ensuite, je ne sais plus quoi faire.
Existe-t-il un module Python permettant de transférer le texte de l'objet html Source vers un fichier WordPad ?
Soit dit en passant, je ne sais pas quelle est la nature de l'objet htmlSource. Est-ce un fichier texte ? De quel format ?.....
Existe-il un module Python permettant de manipuler le texte contenu dans un fichier texte, que ce soit htmlSource (si c'est un fichier texte) ou mon fichier WordPad ?
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent. Du traitement texte quoi: copier/coller, déplacement, effacement, recherche de caractères.... Mais effectué de façon automatisé par un programme Python.
J'ai passé des heures en recherche. J'ai trouvé des références à cStringIO, à xml.sax.saxutils, à xml.dom.minidom ...... Mais je n'arrive pas à comprendre ce que font ces trucs. Je voudrais eviter de passer des heures a essayer de comprendre ce que fait tel ou tel module et m'apercevoir que cela ne me servira a rien. Je n'ai trouve nulle part de descriptif clair des modules Python.
Merci pour tout tuyau, indication, aide ....
A voir également:
- Traitement de texte en Python
- Traitement de texte gratuit - Guide
- Texte de chanson gratuit pdf - Télécharger - Vie quotidienne
- Ce traitement de texte gratuit et léger est parfait pour remplacer Word, même sur un vieux PC - Guide
- Traitement de texte gratuit open office - Télécharger - Suite bureautique
- Transcription audio en texte word gratuit - Guide
2 réponses
Salut,
Juste pour infos je ne suis pas un crack sur python mais il y a en vente actuellement un magazine de progammation
Qui traite sur Python et il y a un article sur la manipulation des Fichiers.
Alors Bonne chance
Juste pour infos je ne suis pas un crack sur python mais il y a en vente actuellement un magazine de progammation
Qui traite sur Python et il y a un article sur la manipulation des Fichiers.
Alors Bonne chance
quelle est la nature de l'objet htmlSource
Un code source html (<html>...)
transférer le texte de l'objet html Source vers un fichier WordPad ?
WordPad ne sait pas lire le format HTML.
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent.
Il existe plusieurs méthodes.
Voici un exemple: récupérer tous les liens d'une page HTML:
https://sebsauvage.net/python/snyppets/index.html#getlinks1
https://sebsauvage.net/python/snyppets/index.html#getlinks2
https://sebsauvage.net/python/snyppets/index.html#getlinks3
https://sebsauvage.net/python/snyppets/index.html#getlinks4
J'ai déjà programmé de nombreuses fois l'extraction automatique de données de pages web.
Tu trouvera des exemples dans https://sebsauvage.net/python/snyppets/
Un code source html (<html>...)
transférer le texte de l'objet html Source vers un fichier WordPad ?
WordPad ne sait pas lire le format HTML.
Je veux pouvoir sélectionner des passages, les effacer, ou les déplacer dans le texte en repérant certaines positions par les caractères qui s'y trouvent.
Il existe plusieurs méthodes.
Voici un exemple: récupérer tous les liens d'une page HTML:
https://sebsauvage.net/python/snyppets/index.html#getlinks1
https://sebsauvage.net/python/snyppets/index.html#getlinks2
https://sebsauvage.net/python/snyppets/index.html#getlinks3
https://sebsauvage.net/python/snyppets/index.html#getlinks4
J'ai déjà programmé de nombreuses fois l'extraction automatique de données de pages web.
Tu trouvera des exemples dans https://sebsauvage.net/python/snyppets/