Lister URL d'un site sur xml

Question

Bonjour,

j'aimerai créer un script qui prendra en entrée l’URL d’un site et devra fournir en sortie le fichier Sitemap XML complet. La difficulté est en fait que le script doit parcourir l’intégralité du site et répertorier de manière exhaustive les URLs du site (plusieurs milliers de pages). Ce script sera par la suite hébergé sur serveur Linux distribution Gentoo.

Dans l'attente d'un réponse de votre part, je vous remerci d'avance.

UgglyBoy · Answer

Pour avoir une "réponse de notre part", le mieux est de poser une question.

Biohazard-34 · Answer

Désolé pour moi la question était évidente...Seulement pour moi alors ^^

Avez vous une idée concernant le code permettant d'effectuer un tel traitement en récuperant l'URL placer un paramètre ?

Biohazard-34 · Answer

Personne n'a d'idée? :(

UgglyBoy · Answer

Dans une page donnée (pour une url) il y a 2 moyens pour récupérer qqchose:
oldschool:
comparaison de chaîne de caractères: recherche ce qui commence par "href="...

newschool:
à travers le DOM:

var anchorTags = document.getElementsByTagName('a');

maintenant "anchorTags" est un tableau contenant toutes les ancres.

après nettoyage du tableau, le but est d'aller suivre récursivement chaque lien et de refaire ceci pour tous les url d'un domaine/sous-domaine... woaw! Je ne sais pas si on peut faire ceci qu'en js...

UgglyBoy · Answer

désolé... ai mal lu ton intro.
en php il faudra utiliser probablement file() et co. avec le problème que tu ne pourras probablement pas faire de requête croisée: un serveur fait une requête sur un autre serveur. À moins que tu aies ton propre serveur.

Lister URL d'un site sur xml

5 réponses

Votre réponse

Discussions similaires

Newsletters