[Python] plan de site internet

Question

Cher ccmistes,

J'aimerais faire un programme qui retourne une liste des dossiers et fichier d'un site. Une sorte de os.walk pour site..

Est-ce que c'est possible de manière aussi directe? 

Je suppose que c'est une sorte de webspider?

Je vais voir si je peux lire le code de ce genre de module mais je me demandais si quelqu'un avais quelques pistes générales..

Mir,

kilian · Answer

Vouich, faut faire un webspider qui extrait tous les liens de la page d'acceuil. Ensuite il faut visiter ces liens (s'ils appartiennent au même site). Ca te mènera vers des pages où il faudra de nouveau extraire les liens et ainsi de suite.

Mais faut être prudent, par exemple s'il ya des arguments sur la page, il faut enlever ces arguments et ne récupérer que la page (pour ne pas faire de doublons). Et c'est encore plus compliqué dans le cas de l'url rewriting... Comme ici sur ce forum, c'est de l'url rewriting si je ne m'abuse, on croit que chaque sujet est une page différente mais en fait ça cache une page seule avec des arguments différents, et l'url est transformée... Ici , on peut distinguer ça en voyant que ces pages commencent par affich....

Bob El Ahn · Answer

Aïe, je craignais ce genre de méthode.. J'espérais, naivement, qu'on puisse accéder directement à une page du style: https://mirrors.edge.kernel.org/pub/linux/kernel/ Comment? Je ne sais pas, une requête http magique peut-être?

Je vois que ca va être plus corsé que du ftp..

Merci beaucoup pour la réponse! Si je m'y attèle, je posterai.

Mir,

kilian · Answer

Ben il faut dire que les bibliothèques en python pour les clients http ont un côté vaguement magique dans le sens ou tout est très simplifié.

Tu peux accéder magiquement à la page dont tu parlais en une seule ligne de code:
page=urllib2.urlopen("https://mirrors.edge.kernel.org/pub/linux/kernel/").read()
Et hop dans la variable page tu as le contenu de la page que tu voulais.

C'est pas le téléchargement de la page qui pose problème.
Ce qui pose problème c'est qu'il faut extraire tous les liens et visiter ces liens.

Ce qui pose problème c'est que un lien dans une page web:
_ Peut être relatif et là il y a plusieurs formes:
 Les liens en "/machinbidule"
 Les liens en "./machinbidule"
 Les liens en "../../machinbidule"
 Les liens en "machinbidule/" qu'il ne faut pas confondre avec "adressed'unsite/"

_ Un lien peut être absolu

_Un lien peut provenir d'un processus d'url rewrited....

Voilà voilà.... Donc bon courage :-)

[Python] plan de site internet

3 réponses

Votre réponse

Discussions similaires

Newsletters