Scrapping problem

Résolu/Fermé
RomainGA Messages postés 110 Date d'inscription mardi 4 juillet 2017 Statut Membre Dernière intervention 19 mai 2024 - Modifié le 8 déc. 2023 à 15:45
yg_be Messages postés 23466 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 12 février 2025 - 8 déc. 2023 à 13:33

Bonjour,

Depuis quelques jours, j'essaye de scrapper des liens d'une page Wikipédia.
Mais à chaque exécution de mon script python, une réponse bizarre apparaît

À l'aide s'il vous plaît

1 réponse

mamiemando Messages postés 33535 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 12 février 2025 7 827
7 déc. 2023 à 18:14

Bonjour,

Malheureusement ta question est trop vague pour que nous puissions y répondre :

  • Quelle page wikipedia ?
  • Quel est le contenu de ton script ? Que cherches-tu as récupérer ?

Mon conseil serait, une fois la page récupérée (par exemple à l'aide du module requests) de regarder du côté de BeautifulSoup pour en extraire du contenu.

Bonne chance

0
RomainGA Messages postés 110 Date d'inscription mardi 4 juillet 2017 Statut Membre Dernière intervention 19 mai 2024 6
Modifié le 8 déc. 2023 à 15:44

J'aimerais scrapper la page wiki de New-York pour essayer de récupérer la liste des liens qui y apparaissent.

import requests
from bs4 import BeautifulSoup

url = "https://fr.wikipedia.org/wiki/New_York"
r = requests.get(url)
print(r)
if r.ok:
    print(r.text)
0
yg_be Messages postés 23466 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 12 février 2025 1 568 > RomainGA Messages postés 110 Date d'inscription mardi 4 juillet 2017 Statut Membre Dernière intervention 19 mai 2024
Modifié le 8 déc. 2023 à 15:43

Une façon d'extraire les liens:

import requests
from bs4 import BeautifulSoup

url = "https://fr.wikipedia.org/wiki/New_York"
r = requests.get(url)
if r.ok:
    doc = r.text
    soup = BeautifulSoup(doc, "html.parser")
    for lien in soup.find_all("a"): 
         print(lien.get('href'))
2