Comment scraper des pages web avec BeautifulSoup ?

Fermé
geekat Messages postés 228 Date d'inscription vendredi 31 juillet 2015 Statut Membre Dernière intervention 24 février 2017 - 5 nov. 2016 à 09:49
dsy73 Messages postés 9252 Date d'inscription dimanche 22 août 2010 Statut Contributeur Dernière intervention 23 octobre 2020 - 6 nov. 2016 à 05:15
Bonjour,

Je souhaite scraper des pages web et en extraire seulement du contenu signifiant (pas de heaver, footer, nav... etc.).
Le problème c'est que la structure HTML diffère d'une page à une autre, on peut trouver <div id ="header"> <div id="mw-head">.....
Pour extraire le contenu dont j'ai besoin je dois éliminer beaucoup de contenus insignifiants et c'est très long, je peux trouver "header", "mw-header", "onglet-principal" .....
Je ne vois pas finalement en quoi BeautifulSoup facilite l'accès au texte dont j'ai besoin.

Suis-je obligée d'étudier la structure de chaque page web ?
Y a-t-il une solution plus facile ?
A voir également:

1 réponse

dsy73 Messages postés 9252 Date d'inscription dimanche 22 août 2010 Statut Contributeur Dernière intervention 23 octobre 2020 2 483
6 nov. 2016 à 05:15
Salut
il existe des modules pour extraire le texte principal d'une page web. Exemple : https://pypi.org/project/readability-lxml/
1