Scrapp ne trouve pas le contenu

Question

Bonjour à tous, 

J'ai essayé le code ci-dessous pour récupérer certaines information du site mais rien ne ressort du scrapp (alors que sur l'exemple https://python-guide-pt-r.readthedocs.io/fr/latest/scenarios/scrape.html j'arrive à tout trouver). 

quelqu'un aurait une explication ?

from lxml import htmlimport requestspage = requests.get('https://www.winamax.fr/paris-sportifs/sports/1')tree = html.fromstring(page.content)#This will create a list of buyers:match = tree.xpath('//div[@class="sc-btAVoO fofYYh"]/text()')#This will create a list of pricesequipe1 = tree.xpath('//span[@class="sc-erkbxa sc-dpQcLm kVUyez hitavz"]/text()')print ('match: ', match)print ('equipe1: ', equipe1)

vortex · Answer

Bonjour,

Tout est une histoire de javascript.

Dans la page où les données sont extraites dans ton tutoriel (bonne url) https://python-docs.readthedocs.io/en/latest/scenarios/scrape.html , les données sont consultables en l'état, sans besoin d'avoir de js activé.

Tandis que sur winmachin, rien n'est visualisable sans javascript activé, ce qui fait que ton xpath ne récupère rien vu que ces classes n'existent pas js désactivé.

Donc faut trouver une autre bibliothèque qui permet de lire une page comme le ferait un navigateur "standard".

Beautiful soup peut normalement faire ça.
https://pypi.org/project/beautifulsoup4/

Note: Peut-être qu'il existe une api sur ce site winmachin, tu as regardé ?

Scrapp ne trouve pas le contenu

1 réponse

Discussions similaires

Newsletters