perl : extraction de textes sur le webFermé

Question

je dois écrire un programme permettant de récupérer l'ensemble des pages contenant les documents HTML et appartenant à l'arborescence de la base. Pour cela, je dois :
1. extraire récursivement, depuis la base, l'ensemble des liens vers des pages HTML locales
2. utiliser le fichier contenant ces liens pour récupérer l'ensemble des textes correspondants.

Merci beaucoup d'avance.
Bonne année à tous ceux qui me répondent !

jphilippe · Accepted Answer

Vi vi, je vois, tu peux essayer de faire un téléport pro, ca marche mieux. Mais si tu veux faire du Perl, c'est ton droit et je le respecte.

Plus sérieusement:
- Tu dois avoir besoin d'une fonction qui lance une requête HTTP,
- Une fonction qui analyse le résultat et le stock dans une structure,
ET surtout tu dois garder un repère des pages downloadées, sinon tu risques de le faire plusieurs fois.

Pour la requête HTTP, il faut utiliser:

use LWP::Simple; ' C est bien du PERL 5
use URI::URL;

my $url = url(' http://myadresse') ;
$contenu = get($url);

Demande si tu veux une autre aide

et sinon, je crois que le bouquin Perl en action d'o reilly peut t'aider sur le sujet.

Jean-Philippe

sebsauvage · Answer

mmm... ça fait un bon bout de temps que je n'ai pas fait de perl.
Est-ce que tu ne pourrais pas utiliser plutôt Python ?

Il a des librairies prêtes à l'emploi pour HTTP, le parsing de fichiers HTML et les expressions régulières.
Et c'est infiniment plus lisible que du perl, tout en étant plus puissant.
http://www.python.org

Sur leur site, il y a même des exemples pour parcourir automatiquement un site web complet et parser les pages HTML.

Pour ma part, j'ai bricolé un petit script Python qui désactive tous les scripts (javascript, VBScript...) dans les pages HTML contenues dans un répertoire (et ses sous-répertoires).
C'est remarquablement facile à programmer.
Le code source devrait être compréhensible sans commentaire.
Si ça peut t'aider, c'est là:

http://sebsauvage.net/python/
http://sebsauvage.net/python/stripscripts.py

Est-ce que le site web que tu dois tester est en local sur ta machine ? (fichiers accessibles directement sans passer par HTTP ?)

jphilippe · Answer

NB: si tu as un proxy, ca ne sera pas aussi simple

sebsauvage · Answer

Si c'est juste pour récupérer un site web complet,
HTTrack est excellent
(très rapide, gratuit, sans pub):

http://www.httrack.com/

Ensuite, facile de les passer dans une moulinette perl ou Python.

jphilippe · Answer

J'ai réfléchi à ton problème, mais je ne suis pas certain que cela soit vraiment celui là.

Pour moi, si je le résume bien, ton problème consiste à downloader un site en local pour surfer dessus.

La décomposition du problème se résume ainsi pour moi :

- Une fonction qui va effectuer une requête HTTP pour récupérer l'élément
- Une fonction qui décompose une page html en liste de liens
- Une liste qui permet de gérer les liens (downloader, à downloader)
- Une fonction qui recompose une page html downloader avec les éléments downloader (remplace les liens vers le disque dur)

Je ne suis pas doué dans la gestion des objects PERL 5, mais je pense qu'il faudrait y passer pour gérer proprement le problème (la liste par exemple devrait être un objet, pareil pour la notion d'url, cela permettrait de faire des comparaisons, etc...).

Je ne connais pas les bibliothèques standard, mais je suppose que tout cela existe en partie.

L'utilisation de la fonction récursive est à mon avis une connerie, je verrais plutot une gestion autour de la liste (tant qu'il y a un élément, je vais chercher une donnée, si c'est une page html, je la décompose pour trouver les url qui la constitue, j'enregistre les url dans ma liste (sauf si l'url existe déjà), et j'enregistre la donnée sur disque dur, ... et à la fin, je reparcour la liste pour changer les données sur le disque local pour remettre les liens au gout du jour)

J'ai peur qu'avec le récursif, on se trouve vite bloquer pour faire évoluer. Maintenant, si c'est l'exercice, il faut faire attention à ne pas downloader 20 fois la même chose et surtout éviter les références circulaires (d'ou la liste).

Voilà,
Bonne année à toi aussi

Ne Bouya Ould Ahmed · Answer

Bonjour,
Je veux une definition de Credit Default Swap(CDS).

sakura · Answer

salut à tous,

Je dois récupérer le contenu html d'un site web à partir de l'url en python, pour faire ça, j'ai pensé à d'abord récupérer l'arborescence du site, puis faire une boucle afin de récupérer le contenu html à partir des liens, mais en python , je ne sais pas comment le faire .

merci d'avance

Perl : extraction de textes sur le web

7 réponses

Discussions similaires

Newsletters