[Python] plan de site internet
Bob El Ahn
Messages postés
42
Date d'inscription
Statut
Contributeur
Dernière intervention
-
kilian Messages postés 8732 Date d'inscription Statut Modérateur Dernière intervention -
kilian Messages postés 8732 Date d'inscription Statut Modérateur Dernière intervention -
Cher ccmistes,
J'aimerais faire un programme qui retourne une liste des dossiers et fichier d'un site. Une sorte de os.walk pour site..
Est-ce que c'est possible de manière aussi directe?
Je suppose que c'est une sorte de webspider?
Je vais voir si je peux lire le code de ce genre de module mais je me demandais si quelqu'un avais quelques pistes générales..
Mir,
J'aimerais faire un programme qui retourne une liste des dossiers et fichier d'un site. Une sorte de os.walk pour site..
Est-ce que c'est possible de manière aussi directe?
Je suppose que c'est une sorte de webspider?
Je vais voir si je peux lire le code de ce genre de module mais je me demandais si quelqu'un avais quelques pistes générales..
Mir,
A voir également:
- [Python] plan de site internet
- Site de telechargement - Accueil - Outils
- Site comme coco - Accueil - Réseaux sociaux
- Quel site remplace coco - Accueil - Réseaux sociaux
- Site de partage de photos - Guide
- Meilleur site de vente entre particulier - Guide
3 réponses
Vouich, faut faire un webspider qui extrait tous les liens de la page d'acceuil. Ensuite il faut visiter ces liens (s'ils appartiennent au même site). Ca te mènera vers des pages où il faudra de nouveau extraire les liens et ainsi de suite.
Mais faut être prudent, par exemple s'il ya des arguments sur la page, il faut enlever ces arguments et ne récupérer que la page (pour ne pas faire de doublons). Et c'est encore plus compliqué dans le cas de l'url rewriting... Comme ici sur ce forum, c'est de l'url rewriting si je ne m'abuse, on croit que chaque sujet est une page différente mais en fait ça cache une page seule avec des arguments différents, et l'url est transformée... Ici , on peut distinguer ça en voyant que ces pages commencent par affich....
Mais faut être prudent, par exemple s'il ya des arguments sur la page, il faut enlever ces arguments et ne récupérer que la page (pour ne pas faire de doublons). Et c'est encore plus compliqué dans le cas de l'url rewriting... Comme ici sur ce forum, c'est de l'url rewriting si je ne m'abuse, on croit que chaque sujet est une page différente mais en fait ça cache une page seule avec des arguments différents, et l'url est transformée... Ici , on peut distinguer ça en voyant que ces pages commencent par affich....
Aïe, je craignais ce genre de méthode.. J'espérais, naivement, qu'on puisse accéder directement à une page du style: https://mirrors.edge.kernel.org/pub/linux/kernel/ Comment? Je ne sais pas, une requête http magique peut-être?
Je vois que ca va être plus corsé que du ftp..
Merci beaucoup pour la réponse! Si je m'y attèle, je posterai.
Mir,
Je vois que ca va être plus corsé que du ftp..
Merci beaucoup pour la réponse! Si je m'y attèle, je posterai.
Mir,
Ben il faut dire que les bibliothèques en python pour les clients http ont un côté vaguement magique dans le sens ou tout est très simplifié.
Tu peux accéder magiquement à la page dont tu parlais en une seule ligne de code:
Et hop dans la variable page tu as le contenu de la page que tu voulais.
C'est pas le téléchargement de la page qui pose problème.
Ce qui pose problème c'est qu'il faut extraire tous les liens et visiter ces liens.
Ce qui pose problème c'est que un lien dans une page web:
_ Peut être relatif et là il y a plusieurs formes:
Les liens en "/machinbidule"
Les liens en "./machinbidule"
Les liens en "../../machinbidule"
Les liens en "machinbidule/" qu'il ne faut pas confondre avec "adressed'unsite/"
_ Un lien peut être absolu
_Un lien peut provenir d'un processus d'url rewrited....
Voilà voilà.... Donc bon courage :-)
Tu peux accéder magiquement à la page dont tu parlais en une seule ligne de code:
page=urllib2.urlopen("https://mirrors.edge.kernel.org/pub/linux/kernel/").read()
Et hop dans la variable page tu as le contenu de la page que tu voulais.
C'est pas le téléchargement de la page qui pose problème.
Ce qui pose problème c'est qu'il faut extraire tous les liens et visiter ces liens.
Ce qui pose problème c'est que un lien dans une page web:
_ Peut être relatif et là il y a plusieurs formes:
Les liens en "/machinbidule"
Les liens en "./machinbidule"
Les liens en "../../machinbidule"
Les liens en "machinbidule/" qu'il ne faut pas confondre avec "adressed'unsite/"
_ Un lien peut être absolu
_Un lien peut provenir d'un processus d'url rewrited....
Voilà voilà.... Donc bon courage :-)