(beautifulsoup) indiquer a find_all() une class parent

Résolu/Fermé
Utilisateur anonyme - 21 juin 2020 à 17:17
 Utilisateur anonyme - 22 juin 2020 à 11:47
Bonjour,

certain siteweb utilise des <tbody> qui eux mème contiennent des balises <tr> qui quand ont est chanceux ont une classe qui leurs est attribuer ou un ID, on peut alors utiliser find_all() de cette manière :

truc = soup.find_all('tr', {"class":"bouff"})


malheureusement, nombreux sont mes sites cible ne possédant qu'un <tbody> avec des balises <tr> sans autre informations fournie pour les identifier...

exit-il une méthode pour identifier les balise <tr> d'un siteweb mais uniquement si elles sont contenue dans un <tbody> ?


merci de votre aide.

Configuration: Linux / Firefox 77.0

1 réponse

Utilisateur anonyme
22 juin 2020 à 11:47
le code suivant semble correspondre a ce que je recherche.
je peut en effet aller chercher ici les balise <tr> contenue dans <tbody>


from lxml.html import fromstring
[...]
parser.xpath('//tbody/tr')[:1000]
[...]
0