Comment scraper des pages web avec BeautifulSoup ?

geekat Messages postés 223 Date d'inscription Statut Membre Dernière intervention -
dsy73 Messages postés 9003 Date d'inscription Statut Contributeur Dernière intervention - 6 nov. 2016 à 05:15

Bonjour,

Je souhaite scraper des pages web et en extraire seulement du contenu signifiant (pas de heaver, footer, nav... etc.).
Le problème c'est que la structure HTML diffère d'une page à une autre, on peut trouver <div id ="header"> <div id="mw-head">.....
Pour extraire le contenu dont j'ai besoin je dois éliminer beaucoup de contenus insignifiants et c'est très long, je peux trouver "header", "mw-header", "onglet-principal" .....
Je ne vois pas finalement en quoi BeautifulSoup facilite l'accès au texte dont j'ai besoin.

Suis-je obligée d'étudier la structure de chaque page web ?
Y a-t-il une solution plus facile ?

Afficher la suite

1 réponse

Réponse 1 / 1
dsy73 Messages postés 9003 Date d'inscription Statut Contributeur Dernière intervention 2 547

Salut
il existe des modules pour extraire le texte principal d'une page web. Exemple : https://pypi.org/project/readability-lxml/
1

Comment scraper des pages web avec BeautifulSoup ?

1 réponse

Discussions similaires

Newsletters