Comment scraper des pages web avec BeautifulSoup ?
geekat
Messages postés
242
Statut
Membre
-
dsy73 Messages postés 9917 Statut Contributeur -
dsy73 Messages postés 9917 Statut Contributeur -
Bonjour,
Je souhaite scraper des pages web et en extraire seulement du contenu signifiant (pas de heaver, footer, nav... etc.).
Le problème c'est que la structure HTML diffère d'une page à une autre, on peut trouver <div id ="header"> <div id="mw-head">.....
Pour extraire le contenu dont j'ai besoin je dois éliminer beaucoup de contenus insignifiants et c'est très long, je peux trouver "header", "mw-header", "onglet-principal" .....
Je ne vois pas finalement en quoi BeautifulSoup facilite l'accès au texte dont j'ai besoin.
Suis-je obligée d'étudier la structure de chaque page web ?
Y a-t-il une solution plus facile ?
Je souhaite scraper des pages web et en extraire seulement du contenu signifiant (pas de heaver, footer, nav... etc.).
Le problème c'est que la structure HTML diffère d'une page à une autre, on peut trouver <div id ="header"> <div id="mw-head">.....
Pour extraire le contenu dont j'ai besoin je dois éliminer beaucoup de contenus insignifiants et c'est très long, je peux trouver "header", "mw-header", "onglet-principal" .....
Je ne vois pas finalement en quoi BeautifulSoup facilite l'accès au texte dont j'ai besoin.
Suis-je obligée d'étudier la structure de chaque page web ?
Y a-t-il une solution plus facile ?
A voir également:
- Comment scraper des pages web avec BeautifulSoup ?
- Web office - Guide
- Navigateur web - Guide
- Comment supprimer une page sur word - Guide
- Comment traduire une page web - Guide
- Création site web - Guide
1 réponse
Salut
il existe des modules pour extraire le texte principal d'une page web. Exemple : https://pypi.org/project/readability-lxml/
il existe des modules pour extraire le texte principal d'une page web. Exemple : https://pypi.org/project/readability-lxml/