Robots.txt

Résolu
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention   -  
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention   -
Bonjour à tous,

Comment savoir si mon robots.txt marche bien?

Je l'ai utilisé pour interdire l'indexation de certains répertoires.

Je sais qu'il faut du temps pour que google le prenne en compte, mais comment peut-on vérifier s'il est bien valable et pris en compte?

Merci à tous,

Antoine


3 réponses

Profil bloqué
 
0
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention  
 
Très intéressant comme outil effectivement, mais il me trouve une erreur sur une ligne, alors qu'elle est écrite pareil que les autres !!?
0
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention  
 
C'est bizarre, il me trouvait une erreur à la dernière ligne. Il a suffit que je passe une ligne (Entrer), pour en avoir une 6ème, vide, et maintenant, plus d'erreur. Tu as une explication pour ça, ou c'est juste le log qui débloque?
0
inspiring Messages postés 1813 Date d'inscription   Statut Membre Dernière intervention   265
 
tu va sur ton compte (ou le créer si besoin) Google Webmaster tools
tu te connecte au site que tu veux manager
là tu te rend sur le menu Etat de santé > URL Bloquées

tu aura un visuel des interdictions fournies par ton robots.txt
0
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention  
 
Merci pour le comment. J'étais déjà allé là, mais je comprends pas, il me trouve le robots, il me met un code 200 (réussi), et dans URL bloquées, il y a un "-"
0
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention  
 
Dans cette section, j'ai vu qu'il y a moyen de tester si le contenu est autorisé ou non. Bizarrement, tous mes contenus qui devraient être bloqués sont marqués comme autorisés. Pourtant, l'outil de Waelb83 m'a bien dit que mon fichier n'avait pas d'erreurs. Tu saurais pourquoi? Voilà mon texte:

User-Agent: *
Disallow: /belgique/
Disallow: /suisse/
Disallow: /france/espaceagents/
Disallow: /france/agents/
0
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention  
 
C bon, j'ai résolu ce problème là. Je pensais que google allait chercher le txt direct sur le site, mais en fait, il fallait le reproduire dans la case du haut. Désolé
0
Célien Messages postés 5729 Date d'inscription   Statut Membre Dernière intervention   1 993
 
Salut,

- Google le prends en compte de suite quand il scanne ton site, le probleme c'est que google il passe quand il veux.

- Google et les autres "gentils" robots le prennent en compte, mais pas les méchants robot de piratage et d'aspiration d'emails de sites, de par le fait le fichier robot.txt ne sert pas à grand chose, si tu veux protéger du contenu met carrément un htaccess dessus.
0
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention  
 
Salut,

En fait, c'est pas pour protéger du contenu, c'est parce que j'ai des sous-sites miroirs du principal et je veux éviter le duplicate content (je suis en page 4 des résults, et je pense que c'est ça)
0
Célien Messages postés 5729 Date d'inscription   Statut Membre Dernière intervention   1 993
 
ok , puisque tu as réussi à le faire marcher il te reste plus qu'à passer le sujet en résolu :-)
0
law_man Messages postés 30 Date d'inscription   Statut Membre Dernière intervention  
 
Certes
0