Code python qui ne s'imprime pas Résolu

Question

Bonjour,

import re
import requests
from bs4 import BeautifulSoup

def get_all_pages():
    urls = []
    page_number = 1

for i in range(104):
        i = f"https://www.barreaudenice.com/annuaire/avocats/?fwp_paged%7Bpage_number%7D="
        page_number += 1
        urls.append(i)

return urls

def parse_attorney(url):
    r = requests.get("https://www.barreaudenice.com/annuaire/avocats/?fwp_paged=1")
    soup = BeautifulSoup(r.content, "html.parser")

avocats = soup.find_all('div', class_='callout secondary annuaire-single')

for avocat in avocats:
        try:
            nom = avocat.find('h3').text.strip()
        except AttributError as e:
            nom = ""
        adresse = avocat.find('span', class_= 'adresse').text.strip()
        try:
           adresse_finale = re.sub(r"\s+", " ", adresse)
        except AttributError as e:
           adresse_finale = ""
        try:
           telephone = avocat.find('span',class_='telephone').text.strip()
        except AttributError as e:
           telephone = ""
        try:
           email = avocat.find('span',class_='email').a.text.strip()
        except AttributError as e:
           email = ""

chemin = r"C:\Users\quent\PycharmProjects\pythonProject\scraping\ANNUAIRE-AVOCATS.txt"
        with open(chemin, "a") as f:
            f.write(f"{nom}
")
        f.write(f"{adresse - finale}
")
        f.write(f"{telephone}
")
        f.write(f"{email}
")

def parse_all_attorneys():
    pages = get_all_pages()
    for page in pages:
        parse_attorney(url=page)
        print(f"On scrape {page}")

Il n'y a pas de message d'erreur lors du RUN, mais aucunes lignes de scrape n'apparait, et le fichier texte ne se crée pas dans mon repertoire ! Merci.

Windows / Firefox 126.0

yg_be · Answer

nonjour,

ne devrais-tu pas faire appel à ces fonctions?

yg_be · Answer

Tu sais donc qu'il est nécessaire de faire appel à print() pour qu'il affiche quelque-chose.

Il en est de même pour toutes les fonctions.  Où fais tu appel à la fonction parse_all_attorneys()?

quentin2121 · Answer

A la ligne 18, je donne la définition de parse_all_attorneys

yg_be · Answer

il ne suffit pas de définir une fonction, il faut y faire appel

def dis_bonjour():
    print("bonjour")
dis_bonjour()

quentin2121 · Answer

J'ai fais déjà le test de ma requete du site, c'est un autre, mais c'est le même principe :

import requests

from bs4 import BeautifulSoup

r = requests.get(https://www.notaireetbreton.bzh/annuaire-notaire/)
print(r.status_code)

j'ai une invlid systax en 5 et le site est bien présent quand on clique sur le lien :

r = requests.get(https://www.notaireetbreton.bzh/annuaire-notaire/)

Diablo76 · Answer

Tu te cherches des excuses, car si tu maitrisais un minimum Python, tu aurais pu comprendre et  corriger le script :

import re

import requests

from bs4 import BeautifulSoup

def get_all_pages():
   urls = []
   page_number = 1
   for _ in range(10):
      url = f"https://www.barreaudenice.com/annuaire/avocats/?fwp_paged=%7Bpage_number%7D"
      page_number += 1
      urls.append(url)
   return urls

def parse_attorney(url):
   r = requests.get(url)
   soup = BeautifulSoup(r.content, "html.parser")
   avocats = soup.find_all('div', class_='callout secondary annuaire-single')

for avocat in avocats:
      try:
         nom = avocat.find('h3').text.strip()
      except AttributeError as e:
         nom = ""
      try:
         adresse = avocat.find('span', class_= 'adresse').text.strip()
         adresse_finale = re.sub(r"\s+", " ", adresse)
      except AttributeError as e:
         adresse_finale = ""
      try:
         telephone = avocat.find('span',class_='telephone').text.strip()
      except AttributeError as e:
         telephone = ""
      try:
         email = avocat.find('span',class_='email').a.text.strip()
      except AttributeError as e:
         email = ""
      
      print("Nom :", nom)
      print("Adresse :", adresse_finale)
      print("Tel :", telephone)
      print("Email : ", email)

def parse_all_attorneys():
   pages = get_all_pages()
   for page in pages:
      print(f"
On scrape {page}
")
      parse_attorney(page)

parse_all_attorneys()

Edit: ligne 11 les { } sont remplacées pas  %7B et %7D !!!

On devrait lire :

{page_number}

quentin2121 · Answer

A ma ligne 28, j'ai des identations dans pycharm, je ne peux pas effacer les espaces :

Du coup ça me met des erreurs.

J'ai bien ouvert l'url du barreau de nice, à la page 2 et plus, je ne vois pas s'afficher les changements :  %7B et %7D à la place de {page_number }, comment tu as pu le voir ? Je ne remets pas en doute tes compétences, mais je cherche à comprendre !

Du coup pour ce site qui m'intéresse plus : https://www.notaireetbreton.bzh/annuaire-notaire?page=1

On fait comment si je n'abuse pas trop ?

PS : tu fais des "print" à la fin, ce n'est pas mieux de créer un fichier .txt ?

quentin2121 · Answer

Résultat :

C:\Users\quent\PycharmProjects\pythonProject\scraping\REQUETE.py:8: GuessedAtParserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 8 of the file C:\Users\quent\PycharmProjects\pythonProject\scraping\REQUETE.py. To get rid of this warning, pass the additional argument 'features="html.parser"' to the BeautifulSoup constructor.

soup = BeautifulSoup(r.text)

NB : il y a tellement de ligne à copie coller dans pycharm que si cela te suffit pour voir si c'est ok ou pas, je ne les mets pas pour l'instant !

Si ok, je peux lancer mon code python de scraping à la suite de ça, à la suite de ce test requête ?

Diablo76 · Answer

En Gros, ce message ne plante pas ton programme, c'est juste un avertissement :

/home/diablo76/Bureau/Test_Python/pythonTest/test1.py:18: GuessedAtParserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 18 of the file /home/diablo76/Bureau/Test_Python/pythonTest/test1.py. To get rid of this warning, pass the additional argument 'features="html.parser"' to the BeautifulSoup constructor.

soup = BeautifulSoup(r.content)
Nom : ABASSIT Florian
Adresse : 31, avenue Jean Médecin 06000 Nice
Tel : T . 04 23 40 02 02
Email :  contact@abassit-avocats.com
Nom : ABBATI Anaïs
Adresse : 13, rue Alphonse Karr Le Louvre 06004
Tel : T . 04 97 03 11 50
Email :  anais.abbati@alister-avocats.eu
Nom : ABDALLAOUI Myriam
Adresse : 11bis Bd Dubouchage 06000 Nice
Tel : T . 06 04 65 39 13
Email :  myriam-abdallaoui@hotmail.com
Nom : ABDOULAYE MOUSSA Abdoul Wahab
Adresse : 16, boulevard Raimbaldi 06000 Nice
Tel : T . 06 51 83 90 86
Email :  abdoul.abdoulayemoussa@gmail.com
Nom : ABECASSIS Charles
Adresse : 1, Place Magenta 06000 Nice
Tel : T . 04 93 88 30 17
Email :  ch.abk6@wanadoo.fr
Nom : ABID Samih
Adresse : 35, rue Gioffredo 06000 Nice
Tel : T . 04 93 87 71 06
Email :  contact@abid-avocats.com
Nom : ABIER-ROUGERON Stéphanie
Adresse : 22, rue Gounod 06000 Nice
Tel : T . 06 30 12 89 76
Email :  rougeronavocat@gmail.com
Nom : ABOU EL HAJA Aziza
Adresse : 1 Boulevard Général Delfino 06300 Nice
Tel : T . 04 93 85 70 23
Email :  aeh.avocat@gmail.com

Diablo76 · Answer

Je ne comprends pas ce que tu veux dire ou faire !!!.

Maintenant si tu veux utilier un user-agent pour simuler un navigateur lors des requêtes pourquoi pas.

Et ne me dis pas que mon script ne marche pas !!!!

Code :

import re
import requests
from bs4 import BeautifulSoup

headers={"User-Agent": "Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148"}

def get_all_pages():
   urls = []
   page_number = 1
   for _ in range(10):
      url = "https://www.barreaudenice.com/annuaire/avocats/?fwp_paged=" + str(page_number)
      page_number += 1
      urls.append(url)
   return urls

def parse_attorney(url):
   r = requests.get(url, headers)
   soup = BeautifulSoup(r.content, "html.parser")
   avocats = soup.find_all('div', class_='callout secondary annuaire-single')

for avocat in avocats:
      try:
         nom = avocat.find('h3').text.strip()
      except AttributeError as e:
         nom = ""
      try:
         adresse = avocat.find('span', class_= 'adresse').text.strip()
         adresse_finale = re.sub(r"\s+", " ", adresse)
      except AttributeError as e:
         adresse_finale = ""
      try:
         telephone = avocat.find('span',class_='telephone').text.strip()
      except AttributeError as e:
         telephone = ""
      try:
         email = avocat.find('span',class_='email').a.text.strip()
      except AttributeError as e:
         email = ""
      
      print("Nom :", nom)
      print("Adresse :", adresse_finale)
      print("Tel :", telephone)
      print("Email : ", email)

def parse_all_attorneys():
   pages = get_all_pages()
   for page in pages:
      print(f"
On scrape {page}
")
      parse_attorney(page)

parse_all_attorneys()

Diablo76 · Answer

le message 25, ce n'est pas un code Python....

la ligne 5 ne sert que si tu l'intègres dans la méthode get() ligne 17

quentin2121 · Answer

import re
import requests
from bs4 import BeautifulSoup

headers={"User-Agent": "Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148"}
def get_all_pages():
    urls = []
    page_number = 1
    for _ in range(100):
         url = f"https://www.notaireetbreton.bzh/annuaire-notaire?page=1"
    page_number += 1
    urls.append(url)
    return urls

def parse_notary(url):
    r = requests.get(url, headers)
    soup = BeautifulSoup(r.content, "html.parer" )
    notaire = soup.find_all('div', class_='callout secondary annuaire-single')

for notaire in notaires:
        try:
            nom = notaire.find('h3').text.strip()
        except AttributError as e:
            nom = ""
            adresse = notaire.find('span', class_= 'adresse').text.strip()
        try:
            adresse_finale = re.sub(r"\s+", " ", adresse)
        except AttributError as e:
            adresse_finale = ""
        try:
            telephone = notaire.find('span',class_='telephone').text.strip()
        except AttributError as e:
            telephone = ""
        try:
            email = notaire.find('span',class_='email').a.text.strip()
        except AttributError as e:
            email = ""

chemin = r"C:\Users\quent\PycharmProjects\pythonProject\scraping\ANNUAIRE-NOTAIRE.txt"
        with open(chemin, "a") as f:
             f.write(f"{nom}
")
             f.write(f"{adresse - finale}
")
             f.write(f"{telephone}
")
             f.write(f"{email}
")

def parse_all_notary():
    pages = get_all_pages()
    for page in pages:
       print(f"
On scrape {page}
")
       parse_notary(page)

def parse_all_notary():
    pages = get_all_pages()
    for page in pages:
        parse_notary(url=page)
    print(f"On scrape {page}")

résultat : "Process finished with exit code 0"

Pas de scrape d'importer !

quentin2121 · Answer

A Diablo

J'ai supprimer les lignes 52 à 56, marquer "parse_all_notary()", toujours aucuns scraps et pourtant aucunes erreurs !

quentin2121 · Answer

import re
import requests
from bs4 import BeautifulSoup

headers={"User-Agent": "Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148"}
def get_all_pages():
    urls = []
    page_number = 1
    for _ in range(100):
         url = f"https://www.notaireetbreton.bzh/annuaire-notaire?paged1&page=1%3D%7Bpage_number%7D"
    page_number += 1
    urls.append(url)
    return urls

def parse_notary(url):
    r = requests.get(url, headers)
    soup = BeautifulSoup(r.content, "html.parer" )
    notaire = soup.find_all('div', class_='callout secondary annuaire-single')

for notaire in notaires:
        try:
            nom = notaire.find('h3').text.strip()
        except AttributError as e:
            nom = ""
            adresse = notaire.find('span', class_= 'adresse').text.strip()
        try:
            adresse_finale = re.sub(r"\s+", " ", adresse)
        except AttributError as e:
            adresse_finale = ""
        try:
            telephone = notaire.find('span',class_='telephone').text.strip()
        except AttributError as e:
            telephone = ""
        try:
            email = notaire.find('span',class_='email').a.text.strip()
        except AttributError as e:
            email = ""

chemin = r"C:\Users\quent\PycharmProjects\pythonProject\scraping\ANNUAIRE-NOTAIRE.txt"
        with open(chemin, "a") as f:
             f.write(f"{nom}
")
             f.write(f"{adresse - finale}
")
             f.write(f"{telephone}
")
             f.write(f"{email}
")

def parse_all_notary():
    pages = get_all_pages()
    for page in pages:
       print(f"
On scrape {page}
")
       parse_notary(page)

def parse_all_notary():
    parse_all_notary()

Sur cette annuaire, la première page commence par la page 0. Ors en python je crois que le zéro est égale à faux, d'ou peut être le souci, ce n'est qu'une supposition !

rtm · Answer

Bonsoir, si tu comprenais un minimum ce que tu écris, tu aurais saisi que :

def parse_all_notary():
    parse_all_notary()

Est complètement saugrenu...

Tu devrais d'ailleurs te manger un RecursionError si tu avais appelé cette fonction parse_all_notary, faudrait vraiment suivre un tuto apprenant les bases de python.

Rien à voir avec un quelconque 0 en numéro de page.

rtm · Answer

Rien qu'en modifiant ton code pour trouver rien que le permier élément, on se rend compte que rien n'est trouvé...

import re
import requests
from bs4 import BeautifulSoup
from collections import namedtuple

HEADERS = {
    'User-Agent': (
        'Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) '
        'AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148'
    )
}

Notary = namedtuple('Notary', ('name', 'adress', 'phone', 'email'))

def parse_notary(url):
    r = requests.get(url, HEADERS)
    soup = BeautifulSoup(r.content, "html.parser" )
    div = soup.find_all('div', class_='callout secondary annuaire-single')
    values = {}
    try:
        values['name'] = div.find('h3').text.strip()
    except AttributeError:
        values['name'] = 'Nom Introuvable...'
    try:
        values['adress'] = div.find('span', class_= 'adresse').text.strip()
        values['adress'] = re.sub(r"\s+", " ", values['adress'])
    except AttributeError:
        values['adress'] = 'Adresse introuvable...'
    try:
        values['phone'] = div.find('span',class_='telephone').text.strip()
    except AttributeError:
        values['phone'] = 'N° téléphone introuvable...'
    try:
        values['email'] = div.find('span',class_='email').a.text.strip()
    except AttributeError:
        values['email'] = 'Adresse courriel introuvable...'
    return Notary(**values)

def parse_all_notaries():
    notaries = []
    for page in range(1):
       # print(f'Nanalyse de la page {page}')
        url = (
            'https://www.notaireetbreton.bzh/annuaire-notaire'
            'paged1=&page=%d' % page
        )
        notaries.append(parse_notary(url))
    return notaries

notaries = parse_all_notaries()
for notary in notaries:
    print(notary)

Donc une analyse correcte du code html de la page à parser est à effectuer avant toute chose !

quentin2121 · Answer

Désolé, mais avec mon code sans le module "namedtuple", peut être que cela vient de là, mais je n'ai toujours aucuns scraps, je testerais ton code demain et te redirais.

import re

import requests

from bs4 import BeautifulSoup

headers={"User-Agent": "Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148"}
def get_all_pages():
    urls = []
    page_number = 0
    for _ in range(51):
         url = f"https://www.notaireetbreton.bzh/annuaire-notaire?page=1"
    page_number += 1
    urls.append(url)
    return urls

def parse_notary(url):
    r = requests.get(url, headers)
    soup = BeautifulSoup(r.content, "html.parser")
    notaire = soup.find_all('div', class_='callout secondary annuaire-single')

for notaire in notaires:
        try:
            nom = notaire.find('h3').text.strip()
        except AttributError as e:
            nom = ""
            adresse = notaire.find('span', class_= 'adresse').text.strip()
        try:
            adresse_finale = re.sub(r"\s+", " ", adresse)
        except AttributError as e:
            adresse_finale = ""
        try:
            telephone = notaire.find('span',class_='telephone').text.strip()
        except AttributError as e:
            telephone = ""
        try:
            email = notaire.find('span',class_='email').a.text.strip()
        except AttributError as e:
            email = ""

chemin = r"C:\Users\quent\PycharmProjects\pythonProject\scraping\ANNUAIRE-NOTAIRE.txt"
        with open(chemin, "a") as f:
             f.write(f"{nom}
")
             f.write(f"{adresse - finale}
")
             f.write(f"{telephone}
")
             f.write(f"{email}
")

def parse_all_notary():
    pages = get_all_pages()
    for page in pages:
       print(f"
On scrape {page}
")
       parse_notary(page)

def parse_all_notary():
    pages = get_all_pages()
    for page in pages:
        parse_notary(url=page)
    print(f"On scrape {page}")

parse_all_notary()

Phil_1857 · Answer

Bonjour,

C'est là le problème: tu recopie des bouts de code sans en comprendre

les tenants et les aboutissants

Les erreurs d'indentation et le fait que tu définis des fonctions mais que tu ne

les appelle pas  montrent que tu n'a pas les bases de Python

Je pense que tu devrais te former d'abord au langage et aux bases

de la programmation en général    :-)

quentin2121 · Answer

find() renvoie 2 pages du site concerné, au lieu des 12 qu'il devrait :

https://www.notaireetbreton.bzh/annuaire-notaire

find_all() renvoie un msg d'erreur.

Pour la compréhension de ce que je fais, faut dire ça a mon professeur... :), je suis ce qu'il me dit de faire, s'il s'est planté là, je lui dirais. Lol.

Diablo76 · Answer

Oui, c'est l'idée ;-)

je pense que tu peux clôturer cette discussion, et si besoin en créer une autre quand tu rencontreras des problèmes sur le script que tu vas travailler avec ton coach.

Code python qui ne s'imprime pas

20 réponses

Votre réponse

Discussions similaires

Newsletters