Comment les moteurs de recherche m'ont connu
Fermé
balantre
-
10 janv. 2010 à 14:48
GMax. Messages postés 576 Date d'inscription lundi 14 décembre 2009 Statut Membre Dernière intervention 2 février 2010 - 10 janv. 2010 à 20:38
GMax. Messages postés 576 Date d'inscription lundi 14 décembre 2009 Statut Membre Dernière intervention 2 février 2010 - 10 janv. 2010 à 20:38
A voir également:
- Comment les moteurs de recherche m'ont connu
- Recherche automatique des chaînes ne fonctionne pas - Guide
- Consultez le code source de cette page. copiez la ligne qui indique aux moteurs de recherche de ne pas référencer la page. - Forum Réseaux sociaux
- Snapchat ils m'ont ajouté par la fonction recherche - Forum Snapchat
- Comment faire une recherche à partir d'une photo - Guide
- Google moteur de recherche page d'accueil - Guide
7 réponses
notobe
Messages postés
1952
Date d'inscription
mercredi 11 novembre 2009
Statut
Membre
Dernière intervention
8 juillet 2011
213
10 janv. 2010 à 14:51
10 janv. 2010 à 14:51
En général les gens se plaignent de ne pas être référencés, c'est amusant d'avoir pour une fois l'inverse ;)
Pour ne pas être indexé dans les moteurs, il faut mettre un fichier robot.txt à la racine dans lequel on indique l'interdiction du passage des robots.
https://www.commentcamarche.net/contents/1268-robots-txt
Pour ne pas être indexé dans les moteurs, il faut mettre un fichier robot.txt à la racine dans lequel on indique l'interdiction du passage des robots.
https://www.commentcamarche.net/contents/1268-robots-txt
notobe
Messages postés
1952
Date d'inscription
mercredi 11 novembre 2009
Statut
Membre
Dernière intervention
8 juillet 2011
213
10 janv. 2010 à 15:29
10 janv. 2010 à 15:29
Honnêtement, je ne vois pas.
C'est normalement impossible (enfin je dis bien normalement)..
C'est vraiment sûr et certain que l'adresse ne traîne pas quelque part ? (dans un forum, même privé, par exemple ?)
C'est normalement impossible (enfin je dis bien normalement)..
C'est vraiment sûr et certain que l'adresse ne traîne pas quelque part ? (dans un forum, même privé, par exemple ?)
bg62
Messages postés
23661
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
30 novembre 2024
2 389
10 janv. 2010 à 15:33
10 janv. 2010 à 15:33
il te faut utiliser robots.txt ET les balises avec nofollow, noindex ... etc ...
mais maintenant que ces pages y sont ce sera encore plus dur de les enlever que de faire prendre un site par un moteur ...
maintenant si c'est l'urgence (mais qui va tomber dessus et avec quels mots clés pour la recherche ... sur quelle page de résultats ... ?) il y a aussi chez les gros moteurs des outils pour demander la suppression de pages indexées ...
mais maintenant que ces pages y sont ce sera encore plus dur de les enlever que de faire prendre un site par un moteur ...
maintenant si c'est l'urgence (mais qui va tomber dessus et avec quels mots clés pour la recherche ... sur quelle page de résultats ... ?) il y a aussi chez les gros moteurs des outils pour demander la suppression de pages indexées ...
En fait, j'ai posé la question à 1&1 avant de venir.
La réponse ?
"Le fait que les moteurs découvrent votre nom de domaine sans que vous ne le soumettiez est ce que l'on appel le référencement naturel.
Cette pratique n'est pas spécifique à 1&1"
Ils ne m'ont rien dit de plus, mais ça suppose que c'est eux qui ont donné l'adresse.
Et oui, je suis certain que cette adresse ne traîne nul par ailleurs (rien trouvé d'autre avec mon nom de domaine sur google).
Par contre, je suis tombé sur un blog décrivant un problème similaire : http://blog.domaineprive.com/ s'était retrouvé indexé sur google parce que le propriétaire de nom de domaine avait écrit cette adresse dans un mail transmit par GMail. Est-il possible que google viole le secret de la correspondance pour agrandir son index ?
Concernant les "outils de suppression" : ceux de google ont marché (mais googlebot continue de scanner le robots.txt), pour msn j'ai du envoyer 6 mails assez saignants pour qu'ils me répondent "ce sera fait dans 5 jours" (le délai va bientôt expirer, on verra à ce moment là) et yahoo dit "mettez un robots.txt" (mais ça ne retire pas l'entrée de leur index, ça se contente de bloquer les futures indexations) et "on ne retire pas manuellement de l'index parce qu'on ne peut vérifier la légitimité de la demande" (mon poing va être très légitime). Je n'ai pas encore consulté voila, mais j'espère ne pas avoir à me faire c**** de la même manière...
Les nofollow sont inutiles puisque l'index ne contient pour lien que celui vers le validateur W3C (je n'ai rien mit d'autre pour éviter que quelqu'un qui tombe dessus par hasard ne puisse connaître la liste des fichiers/répertoires).
La réponse ?
"Le fait que les moteurs découvrent votre nom de domaine sans que vous ne le soumettiez est ce que l'on appel le référencement naturel.
Cette pratique n'est pas spécifique à 1&1"
Ils ne m'ont rien dit de plus, mais ça suppose que c'est eux qui ont donné l'adresse.
Et oui, je suis certain que cette adresse ne traîne nul par ailleurs (rien trouvé d'autre avec mon nom de domaine sur google).
Par contre, je suis tombé sur un blog décrivant un problème similaire : http://blog.domaineprive.com/ s'était retrouvé indexé sur google parce que le propriétaire de nom de domaine avait écrit cette adresse dans un mail transmit par GMail. Est-il possible que google viole le secret de la correspondance pour agrandir son index ?
Concernant les "outils de suppression" : ceux de google ont marché (mais googlebot continue de scanner le robots.txt), pour msn j'ai du envoyer 6 mails assez saignants pour qu'ils me répondent "ce sera fait dans 5 jours" (le délai va bientôt expirer, on verra à ce moment là) et yahoo dit "mettez un robots.txt" (mais ça ne retire pas l'entrée de leur index, ça se contente de bloquer les futures indexations) et "on ne retire pas manuellement de l'index parce qu'on ne peut vérifier la légitimité de la demande" (mon poing va être très légitime). Je n'ai pas encore consulté voila, mais j'espère ne pas avoir à me faire c**** de la même manière...
Les nofollow sont inutiles puisque l'index ne contient pour lien que celui vers le validateur W3C (je n'ai rien mit d'autre pour éviter que quelqu'un qui tombe dessus par hasard ne puisse connaître la liste des fichiers/répertoires).
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
bg62
Messages postés
23661
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
30 novembre 2024
2 389
10 janv. 2010 à 19:02
10 janv. 2010 à 19:02
Ils ne m'ont rien dit de plus, mais ça suppose que c'est eux qui ont donné l'adresse.
je n'en vois absolument pas l'intéret ... d'autant plus qu'ils bloquent l'adresse lors de l'achat d'un ndd ... et il faut faire suater l'index pour le débloquer ...
indexé sur google parce que le propriétaire de nom de domaine avait écrit cette adresse dans un mail transmit par GMail. Est-il possible que google viole le secret de la correspondance pour agrandir son index ?
faut pas rêver non plus google à autre chose à faire ... mais si ce mail s'est "promené" là oui ... ça peut laisser des traces et encore !!!
"outils de suppression" : ceux de google ont marché (mais googlebot continue de scanner le robots.txt), pour msn j'ai du envoyer 6 mails assez saignants pour qu'ils me répondent "ce sera fait dans 5 jours" (le délai va bientôt expirer, on verra à ce moment là) et yahoo dit "mettez un robots.txt" (mais ça ne retire pas l'entrée de leur index, ça se contente de bloquer les futures indexations) et "on ne retire pas manuellement de l'index parce qu'on ne peut vérifier la légitimité de la demande"
donc google ça va être ok quand le cache sera vidé ??? qu'il scanne encore on s'en fiche puisque si tout est bien fait il ne doit plus rien prendre (mais s'il y a des liens ailleurs qui envoient ça ne s'arretera jamais ... pour les autres moteurs non plus !)
pour msn et yahoo ... faut pas être parano non plus, cela va se calmer et si la légitimité du site n'est pas vérifiable heureusement qu'ils ne peuvent pas supprimer sinon on ferait aussi disparaître commentçamarche ...
Les nofollow sont inutiles puisque l'index ne contient pour lien que celui vers le validateur W3C
hé hé ... et qui renvoie vers ... devine !!!
si encore il y avait "noindex" là ça avancerait bien les choses ...
Sauf que la légitimité peut très facilement être vérifiée :
GET /robots.txt HTTP/1.1
User-agent: *
Disallow: /
C'est suffisant pour prouver que je ne veux pas être indexé ?
Concernant Google, c'est OK (mais il a fallu que je m'inscrive et que je valide mon site pour pouvoir le supprimer "pendant 90 jours" de l'index)...
Pour les autres, toujours en attente...
Pour le W3C, effectivement...
Mais comme mondomaine.com n'est pas sur w3.org, ne devrait-il pas relire le robots.txt et donc NE PAS CHARGER le index.html (qu'il ne devrait pas avoir lu de toute façon) ?
J'ajoute quand même les meta, au cas où...
Donc en gros... VIVE LE MINITEL 2.0 !
GET /robots.txt HTTP/1.1
User-agent: *
Disallow: /
C'est suffisant pour prouver que je ne veux pas être indexé ?
Concernant Google, c'est OK (mais il a fallu que je m'inscrive et que je valide mon site pour pouvoir le supprimer "pendant 90 jours" de l'index)...
Pour les autres, toujours en attente...
Pour le W3C, effectivement...
Mais comme mondomaine.com n'est pas sur w3.org, ne devrait-il pas relire le robots.txt et donc NE PAS CHARGER le index.html (qu'il ne devrait pas avoir lu de toute façon) ?
J'ajoute quand même les meta, au cas où...
Donc en gros... VIVE LE MINITEL 2.0 !
bg62
Messages postés
23661
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
30 novembre 2024
2 389
10 janv. 2010 à 19:41
10 janv. 2010 à 19:41
Sauf que la légitimité peut très facilement être vérifiée : GET /robots.txt HTTP/1.1 User-agent: * Disallow: /
ah bon c'est nouveau ça ...
pour le W3C tu ne dois pas avoir tout compris ...
Donc en gros... VIVE LE MINITEL 2.0 !
oui vaut mieux, moi j'abandonne dans ces conditions ...
notobe
Messages postés
1952
Date d'inscription
mercredi 11 novembre 2009
Statut
Membre
Dernière intervention
8 juillet 2011
213
10 janv. 2010 à 20:16
10 janv. 2010 à 20:16
bg, pourriez-vous être plus mesuré dans le ton de vos réponses ?
Il n'y a vraiment pas de quoi pendre balantre de haut comme ça.
Les problèmes d'indexation de sites ayant bien mis des meta de non indexation et des robots.txt existent bien. Ce n'est pas le premier cas que j'entends d'aberrations de ce genre, surtout de la part de yahoo ou de msn.
Effectivement, un robot.txt correct qui refuse l'indexation devrait être respecté des moteurs, avec ou sans BL.
Il y a un vrai pb de côté là... Et nous ne sommes absolument pas maitres de cette situation.
Il n'y a vraiment pas de quoi pendre balantre de haut comme ça.
Les problèmes d'indexation de sites ayant bien mis des meta de non indexation et des robots.txt existent bien. Ce n'est pas le premier cas que j'entends d'aberrations de ce genre, surtout de la part de yahoo ou de msn.
Effectivement, un robot.txt correct qui refuse l'indexation devrait être respecté des moteurs, avec ou sans BL.
Il y a un vrai pb de côté là... Et nous ne sommes absolument pas maitres de cette situation.
bg62
Messages postés
23661
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
30 novembre 2024
2 389
>
notobe
Messages postés
1952
Date d'inscription
mercredi 11 novembre 2009
Statut
Membre
Dernière intervention
8 juillet 2011
10 janv. 2010 à 20:26
10 janv. 2010 à 20:26
Effectivement, un robot.txt correct qui refuse l'indexation devrait être respecté des moteurs, avec ou sans BL.
ben ce n'est pas le cas du tout très souvent !!!
on en a déjà parlé ... ET les balises en nofollow ou noindex sont bien plus puissantes !!!
maintenant si tu veux prendre la suite vas-y ... je te laisse, moi les zzzzanonymes qui font tout et n'importe quoi, qui viennent pleurer ensuite, mais sans donner assez d'éléments ... raz the bol !
le "bébé" est à toi ... trouve-lui la solution ... (et elle existe !!!)
ps :
Et nous ne sommes absolument pas maitres de cette situation.
surtout quand on ne sait pas faire !
notobe
Messages postés
1952
Date d'inscription
mercredi 11 novembre 2009
Statut
Membre
Dernière intervention
8 juillet 2011
213
>
bg62
Messages postés
23661
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
30 novembre 2024
10 janv. 2010 à 20:37
10 janv. 2010 à 20:37
décidément, quelle agressivité... et quelle prétention !
Ces réactions sont vraiment indignes d'un homme de votre âge...
Ces réactions sont vraiment indignes d'un homme de votre âge...
GMax.
Messages postés
576
Date d'inscription
lundi 14 décembre 2009
Statut
Membre
Dernière intervention
2 février 2010
124
10 janv. 2010 à 20:22
10 janv. 2010 à 20:22
Pour être sur de ne pas apparaitre dans les résultats Google:
https://support.google.com/websearch/troubleshooter/3111061?hl=fr&visit_id=637166108661954188-2034386331&rd=1
https://support.google.com/websearch/troubleshooter/3111061?hl=fr&visit_id=637166136445803438-3537207267&rd=1
Et j'ai remarqué aussi ce phénomène.
https://support.google.com/websearch/troubleshooter/3111061?hl=fr&visit_id=637166108661954188-2034386331&rd=1
https://support.google.com/websearch/troubleshooter/3111061?hl=fr&visit_id=637166136445803438-3537207267&rd=1
Et j'ai remarqué aussi ce phénomène.
bg62
Messages postés
23661
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
30 novembre 2024
2 389
10 janv. 2010 à 20:28
10 janv. 2010 à 20:28
apparemment pour google c'est fait ... tu as lu plus haut avant de répondre ???
GMax.
Messages postés
576
Date d'inscription
lundi 14 décembre 2009
Statut
Membre
Dernière intervention
2 février 2010
124
>
bg62
Messages postés
23661
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
30 novembre 2024
10 janv. 2010 à 20:38
10 janv. 2010 à 20:38
Je transmets un lien officiel de Google, pour que ce sois sur.
10 janv. 2010 à 15:07
Cependant, ça ne suffit pas !
MSN ignore le fichier et continue son indexation, et Yahoo me garde dans sa liste de résultats bien qu'il ne scan pas les pages (je suis en pleine négociation pour qu'ils me suppriment).
Ce que j'aurais aimé, c'est plutôt que les moteurs ne me connaissent pas, pas qu'ils m'ignorent.
Et malheureusement, je ne peux pas bloquer les moteurs directement dans IPTABLES puisque le serveur héberge aussi des sites publiques qui doivent être référencés.
En fait, je vais bientôt acheter un nouveau nom de domaine qui aura un but similaire (espace privé, index vide à la racine, htaccess pour protéger les zones privées), et j'aimerais ne pas avoir de googlebot ou de yahooslurp dans mes logs Apache (pas même pour un GET /robots.txt).
D'où ma question : comment ont-ils connu mon nom de domaine ?