Comment les moteurs de recherche m'ont connu

Question

Bonjour,

J'ai récemment acheté un nouveau nom de domaine qui ne pointe que vers du contenu privé.
Hors, si je tape mon nom de domaine dans google, il le connais alors que je ne l'ai pas donné.
En fait, la seule chose que j'ai donné à d'autres personnes, c'est l'adresse mail que j'avais créé avec ce nom de domaine et l'adresse des pages qui peuvent leur être utile (ex : archives des photos à ma famille, wiki à mes collègues, ...). Et à aucun moment je n'ai diffusé ces informations à n'importe qui : je ne les ai donné que IRL à des personnes concernées par le contenu.

Donc, comment google, msn, yahoo et autres ont-ils pu connaître mon nom de domaine ?
Et comment faire pour que ça ne se reproduise pas si j'achète un nouveau nom de domaine ?

Merci.

notobe · Answer

En général les gens se plaignent de ne pas être référencés, c'est amusant d'avoir pour une fois l'inverse ;)

Pour ne pas être indexé dans les moteurs, il faut mettre un fichier robot.txt à la racine dans lequel on indique l'interdiction du passage des robots.
https://www.commentcamarche.net/contents/1268-robots-txt

notobe · Answer

Honnêtement, je ne vois pas.
C'est normalement impossible (enfin je dis bien normalement)..
C'est vraiment sûr et certain que l'adresse ne traîne pas quelque part ? (dans un forum, même privé, par exemple ?)

bg62 · Answer

il te faut utiliser robots.txt ET les balises avec nofollow, noindex ... etc ...
mais maintenant que ces pages y sont ce sera encore plus dur de les enlever que de faire prendre un site par un moteur ...
maintenant si c'est l'urgence (mais qui va tomber dessus et avec quels mots clés pour la recherche ... sur quelle page de résultats ... ?) il y a aussi chez les gros moteurs des outils pour demander la suppression de pages indexées ...

balantre · Answer

En fait, j'ai posé la question à 1&1 avant de venir.
La réponse ?
"Le fait que les moteurs découvrent votre nom de domaine sans que vous ne le soumettiez est ce que l'on appel le référencement naturel.
Cette pratique n'est pas spécifique à 1&1"
Ils ne m'ont rien dit de plus, mais ça suppose que c'est eux qui ont donné l'adresse.

Et oui, je suis certain que cette adresse ne traîne nul par ailleurs (rien trouvé d'autre avec mon nom de domaine sur google).
Par contre, je suis tombé sur un blog décrivant un problème similaire : http://blog.domaineprive.com/ s'était retrouvé indexé sur google parce que le propriétaire de nom de domaine avait écrit cette adresse dans un mail transmit par GMail. Est-il possible que google viole le secret de la correspondance pour agrandir son index ?

Concernant les "outils de suppression" : ceux de google ont marché (mais googlebot continue de scanner le robots.txt), pour msn j'ai du envoyer 6 mails assez saignants pour qu'ils me répondent "ce sera fait dans 5 jours" (le délai va bientôt expirer, on verra à ce moment là) et yahoo dit "mettez un robots.txt" (mais ça ne retire pas l'entrée de leur index, ça se contente de bloquer les futures indexations) et "on ne retire pas manuellement de l'index parce qu'on ne peut vérifier la légitimité de la demande" (mon poing va être très légitime). Je n'ai pas encore consulté voila, mais j'espère ne pas avoir à me faire c**** de la même manière...

Les nofollow sont inutiles puisque l'index ne contient pour lien que celui vers le validateur W3C (je n'ai rien mit d'autre pour éviter que quelqu'un qui tombe dessus par hasard ne puisse connaître la liste des fichiers/répertoires).

bg62 · Answer

Ils ne m'ont rien dit de plus, mais ça suppose que c'est eux qui ont donné l'adresse. 
je n'en vois absolument pas l'intéret ...  d'autant plus qu'ils bloquent l'adresse lors de l'achat d'un ndd ... et il faut faire suater l'index pour le débloquer ...
indexé sur google parce que le propriétaire de nom de domaine avait écrit cette adresse dans un mail transmit par GMail. Est-il possible que google viole le secret de la correspondance pour agrandir son index ? 
faut pas rêver non plus google à autre chose à faire ... mais si ce mail s'est "promené" là oui ... ça peut laisser des traces et encore !!!
"outils de suppression" : ceux de google ont marché (mais googlebot continue de scanner le robots.txt), pour msn j'ai du envoyer 6 mails assez saignants pour qu'ils me répondent "ce sera fait dans 5 jours" (le délai va bientôt expirer, on verra à ce moment là) et yahoo dit "mettez un robots.txt" (mais ça ne retire pas l'entrée de leur index, ça se contente de bloquer les futures indexations) et "on ne retire pas manuellement de l'index parce qu'on ne peut vérifier la légitimité de la demande"
donc google ça va être ok quand le cache sera vidé ??? qu'il scanne encore on s'en fiche puisque si tout est bien fait il ne doit plus rien prendre (mais s'il y a des liens ailleurs qui  envoient ça ne s'arretera  jamais ... pour les autres moteurs non plus !)
pour msn et yahoo ... faut pas être parano non plus, cela va se calmer et si la légitimité du site n'est pas vérifiable heureusement qu'ils ne peuvent pas supprimer sinon on ferait aussi disparaître commentçamarche ...
Les nofollow sont inutiles puisque l'index ne contient pour lien que celui vers le validateur W3C

hé hé ... et qui renvoie vers ...  devine !!!
si encore il y avait "noindex" là ça avancerait bien les choses ...

bg62 · Answer

Sauf que la légitimité peut très facilement être vérifiée :
GET /robots.txt HTTP/1.1
User-agent: *
Disallow: / 
ah bon c'est nouveau ça ...
pour le W3C tu ne dois pas avoir tout compris ...

Donc en gros... VIVE LE MINITEL 2.0 !
oui vaut mieux, moi j'abandonne dans ces conditions ...

GMax. · Answer

Pour être sur de ne pas apparaitre dans les résultats Google:

https://support.google.com/websearch/troubleshooter/3111061?hl=fr&visit_id=637166108661954188-2034386331&rd=1
https://support.google.com/websearch/troubleshooter/3111061?hl=fr&visit_id=637166136445803438-3537207267&rd=1


Et j'ai remarqué aussi ce phénomène.

Comment les moteurs de recherche m'ont connu

7 réponses

Discussions similaires

Newsletters