Python : Scrapping page js

Fermé
X.Reihtop - 19 juil. 2022 à 12:55
yg_be Messages postés 23526 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 14 avril 2025 - 19 juil. 2022 à 22:11

Bonjour à tous !

Je souhaite scrapper le texte de cette page : http://rivalregions.com/info/regions.

Après quelques recherches j'ai fait ce code :

from bs4 import BeautifulSoup
import requests

f = requests.get("http://rivalregions.com/info/regions")
contents = f.text
soup = BeautifulSoup(contents, 'lxml')
print(soup)

Rien de très compliqué jusque là et cela fonctionne sauf que je récupère ceci :

<html><head><script>

$(document).ready(function() {

	window.location="https://rivalregions.com";

	});

</script>
</head></html>

Ce qui n'est pas ce que je souhaite puisque je veux récupérer ce que vous voyez si vous allez sur cette page : http://rivalregions.com/info/regions.

Donc ma question est comment récupérer le texte ? (J'aimerai bien garder cette base si possible, sinon tant pis.

Merci d'avance pour vos réponses !

A voir également:

2 réponses

yg_be Messages postés 23526 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 14 avril 2025 Ambassadeur 1 577
19 juil. 2022 à 13:10

bonjour,

Je ne vois aucun texte quand je vais sur la page que tu indiques.

0

Bonsoir,

C'est tout à fait normal, il faut être connecté à un site tiers et je le suis. Cela nous permet d'accéder à ceci pour vous montrer :

République d'Adygea, id: 1 	+ 	10 	8 	6300000 	387150000 	964 	851 	555 	864 	0 	1500 	32 	2000 	8801 	597.496 	231 	290 	2 	2 	351 	231 	290 	2 	2 	637 	231 	290 	2 	2 	6 	6 	5 	3 	16 	0 	0 	3 	3 	3 	3 	0 	0 	0 	0 	0 	0 	0 	0 	0 	0 	7 	193

Mais répété près de 1'000 fois.

(Cela correspond à des infos sur un jeu et elles évoluent quand on rafraîchit la page.)

0
yg_be Messages postés 23526 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 14 avril 2025 1 577
19 juil. 2022 à 22:11

C'est tout à fait normal, BeautifulSoup n'est, pas plus que moi, connecté à ce site tiers.

0