Scraping Webpages in Python with Beautiful Soup Résolu

Question

Bonjour, 
je souhaiterais que vous preniez attention à ce post. 
Pour faire simple, il sagit de scraping avec python.
Dans les faits, avec python, charger le contenu d'une page HTML dans une variable , puis faire un traitement.

Dans ce cas, beautifullsoup est utilisé.

Pour résumer,  une requette est envoyée à un lien pour permettre de stocker une page HTML  (integralement) dans un fichier désigné.
J'y suis parvenu avec ce code :

import osimport csvimport requestsfrom bs4 import BeautifulSoupdef liens (): listeliens=["https://link.tld","http://link.tld"] return listeliensextention = ".csv"i = 0j = len(liens())for adr in liens(): while i<j:  nomfichier = str(i) + extention  print nomfichier  with open (nomfichier.decode("utf-8"),"w") as contenu:   ecrire = csv.writer(contenu)  i+=1
Résultat:
~/Documents/python/test$ python htmlUp.py 0.csv1.csv

Le langage python est le pus approprié à mes attentes.
J'aurais besoin d'un coup de pousse!
Mon but est d'utiliser Beautifulsoup pour le stockage de pages dans un fichier particulier, avant de faire un traitement par la suite.

Je sollicites votre aide pour comprendre une erreur avec le code suivant...

L'erreur est :
Traceback (most recent call last):  File "htmlUp2.py", line 25, in <module>    soup = BeautifulSoup.BeautifulSoup(html)AttributeError: type object 'BeautifulSoup' has no attribute 'BeautifulSoup'

Le script est :
#!/usr/bin/env python# -*- coding: utf-8 -*-import osimport csvimport sslimport requestsfrom urllib2 import urlopenfrom bs4 import BeautifulSoupdef liens (): listeliens=["https://lien1.tld","http://lien1.tld"] return listeliensextention = ".csv"i = 0j = len(liens())for adr in liens(): while i<j:  context = ssl._create_unverified_context()  html = urlopen(adr, context=context).read()  soup = BeautifulSoup.BeautifulSoup(html)  nomfichier = str(i) + extention  print nomfichier  with open (nomfichier.decode("utf-8"),"w") as contenu:   ecrire = csv.writer(soup)  i+=1



Si vous pouvez me donner des indices je vous serait gré.

Je continue mes recherches.
Merci.

Cordialement,
Tom@

Configuration: OVH server

jordane45 · Answer

Bonjour

Ne serait-ce pas plutôt : soup = BeautifulSoup(html_doc, 'html.parser')
dixit la doc : https://beautiful-soup-4.readthedocs.io/en/latest/

Scraping Webpages in Python with Beautiful Soup

1 réponse

Votre réponse

Discussions similaires

Newsletters