Signalement de tout les liens morts du site

JulienDethurens Messages postés 7 Date d'inscription   Statut Membre Dernière intervention   -  
CCMclaude Messages postés 25534 Date d'inscription   Statut Contributeur Dernière intervention   -
Bonjour,
Je possède un petit programme(en anglais malheureusement) qui est capable de scanner les liens sur une page et de répertorier les données sur ceux-ci(taille, adresse, titre, et plus, dont la disponibilité), tout en scannant les liens sur la page web, il scanne les liens se trouvant dans les pages dont le lien figure dans la première page, et les liens se trouvant dans les pages dont le lien se trouve dans les pages dont le lien se trouve dans la première page, et ainsi de suite, bref, il est capable de scanner tout un site en entier(on peut même choisir d'ajouter les liens externes), excepté les pages pointées par aucun lien.
J'ai, pour aider ce site à éliminer tout ses liens morts(il y en a pas beaucoup..., mais ils sont très durs à trouver) décidé de scanner tout commentcamarche, le scan est en cours, mais ça peut prendre du temps(vous connaissez le nombre de pages dans le site?), je reposterais dans ce sujet dès que le scan sera terminé et j'y mettrai la liste de tous les liens morts, en espérant que vous saurez en faire bon usage... j'en profiterais aussi pour poster les informations sur les erreurs, dont le code d'erreur.

8 réponses

JulienDethurens Messages postés 7 Date d'inscription   Statut Membre Dernière intervention  
 
Les informations que je posterais seront :
Le code de l'erreur(pas nécessaire)
Le nom de l'erreur(pas plus nécessaire)
La page qui a l'erreur(nécessaire pour savoir quel est le lien parmi les liens présents sur les pages)
Les liens qui mènent à la page inexistante ou inaccessible(nécessaire pour savoir ou se trouvent les liens)


Actuellement, le programme a déjà détecté 37 pages comprenant une erreur et un total de 1448 liens morts, et il n'est rendu qu'à 6%(il a même pas fini de calculer le nombre total de pages, il arrête pas de monter, il est actuellement à 504305 pages et il a pas fini de compter, il risque de détecter au moins un million de liens brisés sur commentcamarche(et il s'occupe même pas des liens externes)(oups... j'en connais qui vont avoir du travail.... un milion de liens à supprimer ou mettre à jour... un travail de titan!)

Ceci sont toutes les informations fournies par le programme :
L'adresse de la page
Statut(erreur, accès interdit, inexistant, existe, déplacé vers une autre place, ect...)
Type(indique si le lien mène à une page, image, document, ect...)
Taille du fichier
0
Utilisateur anonyme
 
Salut,

Actuellement : 2162234 discussions C'est fou ce que ton PC va envoyer comme requêtes au CCM.

En plus, tu vas donner un travail énorme aux modos.

Ce qui raisonnable, c'est d'exclure les forums de ton scan. Le travail sera seulement celui des contributeurs et de webmasters.

@ +
0
JulienDethurens Messages postés 7 Date d'inscription   Statut Membre Dernière intervention  
 
oh, mais si je les mets, ce n'est pas que les modos vont devoir les corriger tous, seulement les plus importants.
Par contre, je crois que tu as raison, et je vais exclure les forums...
Quand aux requêtes, demander à un site si telle page existe, ce n'est pas une énorme requête et c'est très rapide... Donc, même si elles sont beaucoup...
Et en plus, en enlevant les forums...
Le problème, c'est qu'il a déjà commencé les forums, mais il n'est pas rendu loin, je n'ai qu'à modifier les options
0
Utilisateur anonyme
 
Si j'ai bien compris, ton logiciel va ouvrir toutes les discussions une à une (c'est ça ce qui est énorme), chercher les liens dans chaque message, et vérifier s'ils sont encore disponibles ou pas.

En tout cas, merci pour ton initiative, et ça me ferais plaisir de corriger ce que je peux corriger :-)

D'un autre coté, je suis intéressé de savoir le nom de ce logiciel, si tu veux me le dire :-)
0
moska Messages postés 7520 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention   384 > Utilisateur anonyme
 
Salut,

C'est surement Xenu,
http://home.snafu.de/tilman/xenulink.html


Forum
Actuellement : 2165148 discussions


Amuse-toi bien pour signaler tout les liens morts inclus dans les topics :-D
0
Utilisateur anonyme > moska Messages postés 7520 Date d'inscription   Statut Modérateur, Contributeur sécurité Dernière intervention  
 
Salut moska :)

C'est bien lui, pourtant il y avait pas très longtemps que j'ai fait la mise à jour de ce logiciel sur CCM, et je me souviens que j'ai sa fiche :-(

Merci !
0
CCMclaude Messages postés 25534 Date d'inscription   Statut Contributeur Dernière intervention   741 > Utilisateur anonyme
 
'lut ;)
Pour le download, cela semble être ici : http://www.commentcamarche.net/telecharger/telecharger 3673511 xenu s link sleuth
Bjr chez vous !
0
JulienDethurens Messages postés 7 Date d'inscription   Statut Membre Dernière intervention  
 
Le problème c'est que je ne sais pas ou je l'ai trouvé...
pour l'instant, si tu veut avoir des choses à corriger, je crois que j'ai du stock...
environ 4500 liens à corriger... et tous ces liens mènent vers seulement vers 3 pages inexistantes...
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
JulienDethurens Messages postés 7 Date d'inscription   Statut Membre Dernière intervention  
 
J'ai tout enregistré les résultats dans un fichier.txt(pour rendre plus lisible, je posterais aussi les résultats dans ce sujet, mais ça peut être long), le problème est que ce fichier est trop gros pour être affiché dans le bloc-notes, à chaque ouverture, ce message apparaît :

Le fichier machintruc est trop grand pour le Bloc-notes.

Utilisez un autre éditeur pour modifier le fichier.

Pourtant, c'est ""seulement"" 751mo...
0
Utilisateur anonyme
 
751 Mo dans un fichier texte, c'est pas rien tu sais ;-))

1 caractère => 1 octet. Donc on a plus que 751000000 caractères.

Essaye de l'ouvrir avec : Notepad++ (Encore avec ça, je ne vois pas comment tu vas nous communiquer tout ça !)
0
CCMclaude Messages postés 25534 Date d'inscription   Statut Contributeur Dernière intervention   741
 
Bonjour à tpus,
Si ce fichier est accessible et utilisable, ne faudrait-il pas que ce soit en mode interactif (pour éviter que les liens morts ne soient "ferrés" plus d'une fois), hosté par CCM après test de faisabilité, et accessible par les seuls contribs, modos et masters ?
Salut Fahd ;)
0
JulienDethurens Messages postés 7 Date d'inscription   Statut Membre Dernière intervention  
 
en fait.... les 750mo, c'est la totalité des résultats, les liens morts font beaucoup moins que ça...
Quand à notepad++, je l'ai aussi, mais... le chargement du fichier est trop long...
0
Utilisateur anonyme
 
Tu n'as pas un moyen d'afficher que les liens morts ?

Salut Papy ;-)
0
JulienDethurens Messages postés 7 Date d'inscription   Statut Membre Dernière intervention  
 
Juste les liens morts? oui, c'est possible, le seul problème est que ça peut être long de tous les classer...
Enfin, je vais essayer...
0