Comment scraper des pages web avec BeautifulSoup ?
geekat
Messages postés
223
Date d'inscription
Statut
Membre
Dernière intervention
-
dsy73 Messages postés 9917 Date d'inscription Statut Contributeur Dernière intervention -
dsy73 Messages postés 9917 Date d'inscription Statut Contributeur Dernière intervention -
Bonjour,
Je souhaite scraper des pages web et en extraire seulement du contenu signifiant (pas de heaver, footer, nav... etc.).
Le problème c'est que la structure HTML diffère d'une page à une autre, on peut trouver <div id ="header"> <div id="mw-head">.....
Pour extraire le contenu dont j'ai besoin je dois éliminer beaucoup de contenus insignifiants et c'est très long, je peux trouver "header", "mw-header", "onglet-principal" .....
Je ne vois pas finalement en quoi BeautifulSoup facilite l'accès au texte dont j'ai besoin.
Suis-je obligée d'étudier la structure de chaque page web ?
Y a-t-il une solution plus facile ?
Je souhaite scraper des pages web et en extraire seulement du contenu signifiant (pas de heaver, footer, nav... etc.).
Le problème c'est que la structure HTML diffère d'une page à une autre, on peut trouver <div id ="header"> <div id="mw-head">.....
Pour extraire le contenu dont j'ai besoin je dois éliminer beaucoup de contenus insignifiants et c'est très long, je peux trouver "header", "mw-header", "onglet-principal" .....
Je ne vois pas finalement en quoi BeautifulSoup facilite l'accès au texte dont j'ai besoin.
Suis-je obligée d'étudier la structure de chaque page web ?
Y a-t-il une solution plus facile ?
A voir également:
- Comment scraper des pages web avec BeautifulSoup ?
- Navigateur web - Guide
- Web office - Guide
- Page web non disponible - Guide
- Comment supprimer les pages vides sur word - Guide
- Capture page web - Guide
1 réponse
Salut
il existe des modules pour extraire le texte principal d'une page web. Exemple : https://pypi.org/project/readability-lxml/
il existe des modules pour extraire le texte principal d'une page web. Exemple : https://pypi.org/project/readability-lxml/