Crawler perl pour une étude de liens

Fermé
toto_dst - 28 mars 2009 à 18:57
 toto_dst - 2 avril 2009 à 11:13
Bonjour à tous,

tout d'abord, je tiens à préciser que j'ai cherché (peut-être mal, je vous l'accorde ;) dans le forum, mais je n'ai pas trouvé réponse à mon problème.

Je cherche un web crawler (idéalement codé en perl, sinon accessible facilement) qui fonctionnerait de manière tout simple : on lui donnerait un site (voire une liste de sites) à crawler, et il délivrerait tous les liens hypertexte qu'il a trouvé dans l'exploration. Vous allez me dire, ça, ça existe déjà. Sauf que ce qui m'intéresse, c'est que dans tous les liens qui ont été trouvés, le crawler me dise si ces sites pointent éventuellement vers le site d'origine. Me suis-je exprimé clairement ? Si un site A possède un lien vers B et C, j'ai besoin de savoir non seulement que A pointe B et C, mais aussi si B et/ou C pointent A.

Si certains d'entre vous ont ça dans un vieux tiroir de code, ou un vieux lien à me shooter, je jetterai des pétales de rose sous chacun de vos pas sur 7 générations.

Merci d'avance.

2 réponses

lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 569
28 mars 2009 à 19:55
0
oui, et je t'avoue ne pas avoir trouvé ce que j'ai expliqué plus haut. Si tu as un lien direct à me donner vers un programme qui fait cela, je suis preneur.

Merci encore de m'avoir répondu.
0
lami20j Messages postés 21331 Date d'inscription jeudi 4 novembre 2004 Statut Modérateur, Contributeur sécurité Dernière intervention 30 octobre 2019 3 569
28 mars 2009 à 20:16
Re,

Ben, le 1er lien dans google te donne un script tout prêt ;-)
0
désolé, dans ce cas, je début tout juste en perl, j'ai encore du mal à tout saisir, mais j'ai pourtant l'impression que le script dont tu parles ne me trouve que les liens du type "site A vers B, C, D....", et non pas les liens "B, C, D... vers A". Je me trompe ?
0
toto_dst > toto_dst
2 avril 2009 à 11:13
lami20j, stp ???
0