(beautifulsoup) indiquer a find_all() une class parent [Résolu]

Signaler
Messages postés
37
Date d'inscription
dimanche 15 décembre 2019
Statut
Membre
Dernière intervention
29 juin 2020
-
Messages postés
37
Date d'inscription
dimanche 15 décembre 2019
Statut
Membre
Dernière intervention
29 juin 2020
-
Bonjour,

certain siteweb utilise des <tbody> qui eux mème contiennent des balises <tr> qui quand ont est chanceux ont une classe qui leurs est attribuer ou un ID, on peut alors utiliser find_all() de cette manière :

truc = soup.find_all('tr', {"class":"bouff"})


malheureusement, nombreux sont mes sites cible ne possédant qu'un <tbody> avec des balises <tr> sans autre informations fournie pour les identifier...

exit-il une méthode pour identifier les balise <tr> d'un siteweb mais uniquement si elles sont contenue dans un <tbody> ?


merci de votre aide.

Configuration: Linux / Firefox 77.0

1 réponse

Messages postés
37
Date d'inscription
dimanche 15 décembre 2019
Statut
Membre
Dernière intervention
29 juin 2020
2
le code suivant semble correspondre a ce que je recherche.
je peut en effet aller chercher ici les balise <tr> contenue dans <tbody>


from lxml.html import fromstring
[...]
parser.xpath('//tbody/tr')[:1000]
[...]