Scrapp ne trouve pas le contenu

Fermé
Toki - 5 août 2021 à 11:37
 vortex - 5 août 2021 à 14:39
Bonjour à tous,

J'ai essayé le code ci-dessous pour récupérer certaines information du site mais rien ne ressort du scrapp (alors que sur l'exemple https://python-guide-pt-r.readthedocs.io/fr/latest/scenarios/scrape.html j'arrive à tout trouver).

quelqu'un aurait une explication ?

from lxml import html
import requests

page = requests.get('https://www.winamax.fr/paris-sportifs/sports/1')
tree = html.fromstring(page.content)

#This will create a list of buyers:
match = tree.xpath('//div[@class="sc-btAVoO fofYYh"]/text()')
#This will create a list of prices
equipe1 = tree.xpath('//span[@class="sc-erkbxa sc-dpQcLm kVUyez hitavz"]/text()')

print ('match: ', match)
print ('equipe1: ', equipe1)

1 réponse

Bonjour,

Tout est une histoire de javascript.

Dans la page où les données sont extraites dans ton tutoriel (bonne url) https://python-docs.readthedocs.io/en/latest/scenarios/scrape.html , les données sont consultables en l'état, sans besoin d'avoir de js activé.

Tandis que sur winmachin, rien n'est visualisable sans javascript activé, ce qui fait que ton xpath ne récupère rien vu que ces classes n'existent pas js désactivé.

Donc faut trouver une autre bibliothèque qui permet de lire une page comme le ferait un navigateur "standard".

Beautiful soup peut normalement faire ça.
https://pypi.org/project/beautifulsoup4/

Note: Peut-être qu'il existe une api sur ce site winmachin, tu as regardé ?
0