Webscrapping : certains éléments non accessibles
Résolu
Utilisateur anonyme
-
Utilisateur anonyme -
Utilisateur anonyme -
Bonjour,
Je me penche sur le côté web scrapping de Python et j'ai déjà réussi quelques programmes. Je me retrouve face à des situations où certaines données visibles sur la page directement (grâce à inspecter l'élément) ne sont pas accessibles via le code source (introuvable). J'aurais voulu savoir s'il existe une manière de pouvoir avoir accès à la totalité des éléments d'une page à la manière de "inspecter l'élément".
Merci de bien vouloir me proposer une solution, cordialement.
Je me penche sur le côté web scrapping de Python et j'ai déjà réussi quelques programmes. Je me retrouve face à des situations où certaines données visibles sur la page directement (grâce à inspecter l'élément) ne sont pas accessibles via le code source (introuvable). J'aurais voulu savoir s'il existe une manière de pouvoir avoir accès à la totalité des éléments d'une page à la manière de "inspecter l'élément".
Merci de bien vouloir me proposer une solution, cordialement.
33 réponses
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
'lut, c'est simple: si un contenu est sur la page alors qu'il n'est pas dans la source initiale, c'est qu'il a été ajouté dynamiquement par du JavaScript, donc soit généré soit chargé avec une requête AJAX.
Sauf qu'à ma connaissance les outils de webscrapping n'interprètent ni n'analysent le JS des pages qu'ils rencontrent, d'où le fait que certains éléments ne soient pas accessibles.
Et là, il faut soit trouver/configurer/programmer un outil suffisamment puissant, soit faire une partie du scrapping à la main.
from human import idiocy
del idiocy
Sauf qu'à ma connaissance les outils de webscrapping n'interprètent ni n'analysent le JS des pages qu'ils rencontrent, d'où le fait que certains éléments ne soient pas accessibles.
Et là, il faut soit trouver/configurer/programmer un outil suffisamment puissant, soit faire une partie du scrapping à la main.
from human import idiocy
del idiocy