Scrapper les données de plusieurs pages
Résolu/Fermé
blgnch
Messages postés
6
Date d'inscription
jeudi 12 mai 2022
Statut
Membre
Dernière intervention
19 mai 2022
-
Modifié le 16 mai 2022 à 10:06
mamiemando Messages postés 33344 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 7 novembre 2024 - 13 mai 2022 à 20:33
mamiemando Messages postés 33344 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 7 novembre 2024 - 13 mai 2022 à 20:33
A voir également:
- Scrapper les données de plusieurs pages
- Supprimer des pages sur word - Guide
- Effacer les données de navigation - Guide
- Reinstaller windows sans perte de données - Guide
- Comment sauvegarder toutes les données de mon téléphone - Guide
2 réponses
mamiemando
Messages postés
33344
Date d'inscription
jeudi 12 mai 2005
Statut
Modérateur
Dernière intervention
7 novembre 2024
7 803
Modifié le 12 mai 2022 à 15:27
Modifié le 12 mai 2022 à 15:27
Bonjour,
Avant d'appeler BeautilfulSoup, il te faut télécharger le contenu de la (des) page(s) web concernée(s) et stocker le résultat dans une chaînes. Une manière de procéder est d'utiliser le module
Ensuite, il suffit de récupérer lancer une requête vers l'URL qui t'intéresse et récupérer le contenu HTML dans la réponse obtenue.
Il est possible si tu as vraiment beaucoup de pages et que celles-ci mettent du temps à être collectées de paralléliser le téléchargement avec un appel asynchone (voir cette page).
Une fois les pages récupérées tu peux commencer à utiliser
Bonne chance
Avant d'appeler BeautilfulSoup, il te faut télécharger le contenu de la (des) page(s) web concernée(s) et stocker le résultat dans une chaînes. Une manière de procéder est d'utiliser le module
requests(module qu'il faudra installer, sous Linux (Debian, Ubuntu) :
sudo apt install python3-requests; sous Windows :
pip install requests).
Ensuite, il suffit de récupérer lancer une requête vers l'URL qui t'intéresse et récupérer le contenu HTML dans la réponse obtenue.
import requests session = requests.Session() response = session.get("https://www.google.fr") text = response.text print(text)
Il est possible si tu as vraiment beaucoup de pages et que celles-ci mettent du temps à être collectées de paralléliser le téléchargement avec un appel asynchone (voir cette page).
Une fois les pages récupérées tu peux commencer à utiliser
BeautilfulSoup.
Bonne chance
blgnch
Messages postés
6
Date d'inscription
jeudi 12 mai 2022
Statut
Membre
Dernière intervention
19 mai 2022
12 mai 2022 à 17:06
12 mai 2022 à 17:06
Super, ça marche ! Merci beaucoup !!
mamiemando
Messages postés
33344
Date d'inscription
jeudi 12 mai 2005
Statut
Modérateur
Dernière intervention
7 novembre 2024
7 803
13 mai 2022 à 20:33
13 mai 2022 à 20:33
De rien, bonne continuation :-)