Comment les moteurs de recherche m'ont connu

Fermé
balantre - 10 janv. 2010 à 14:48
GMax. Messages postés 576 Date d'inscription lundi 14 décembre 2009 Statut Membre Dernière intervention 2 février 2010 - 10 janv. 2010 à 20:38
Bonjour,

J'ai récemment acheté un nouveau nom de domaine qui ne pointe que vers du contenu privé.
Hors, si je tape mon nom de domaine dans google, il le connais alors que je ne l'ai pas donné.
En fait, la seule chose que j'ai donné à d'autres personnes, c'est l'adresse mail que j'avais créé avec ce nom de domaine et l'adresse des pages qui peuvent leur être utile (ex : archives des photos à ma famille, wiki à mes collègues, ...). Et à aucun moment je n'ai diffusé ces informations à n'importe qui : je ne les ai donné que IRL à des personnes concernées par le contenu.

Donc, comment google, msn, yahoo et autres ont-ils pu connaître mon nom de domaine ?
Et comment faire pour que ça ne se reproduise pas si j'achète un nouveau nom de domaine ?

Merci.

7 réponses

notobe Messages postés 1952 Date d'inscription mercredi 11 novembre 2009 Statut Membre Dernière intervention 8 juillet 2011 213
10 janv. 2010 à 14:51
En général les gens se plaignent de ne pas être référencés, c'est amusant d'avoir pour une fois l'inverse ;)

Pour ne pas être indexé dans les moteurs, il faut mettre un fichier robot.txt à la racine dans lequel on indique l'interdiction du passage des robots.
https://www.commentcamarche.net/contents/1268-robots-txt
0
Bien sûr, j'ai déjà mis un robots.txt qui contient en tout et pour tout User-agent: * Disallow: /.
Cependant, ça ne suffit pas !
MSN ignore le fichier et continue son indexation, et Yahoo me garde dans sa liste de résultats bien qu'il ne scan pas les pages (je suis en pleine négociation pour qu'ils me suppriment).

Ce que j'aurais aimé, c'est plutôt que les moteurs ne me connaissent pas, pas qu'ils m'ignorent.

Et malheureusement, je ne peux pas bloquer les moteurs directement dans IPTABLES puisque le serveur héberge aussi des sites publiques qui doivent être référencés.

En fait, je vais bientôt acheter un nouveau nom de domaine qui aura un but similaire (espace privé, index vide à la racine, htaccess pour protéger les zones privées), et j'aimerais ne pas avoir de googlebot ou de yahooslurp dans mes logs Apache (pas même pour un GET /robots.txt).
D'où ma question : comment ont-ils connu mon nom de domaine ?
0
notobe Messages postés 1952 Date d'inscription mercredi 11 novembre 2009 Statut Membre Dernière intervention 8 juillet 2011 213
10 janv. 2010 à 15:29
Honnêtement, je ne vois pas.
C'est normalement impossible (enfin je dis bien normalement)..
C'est vraiment sûr et certain que l'adresse ne traîne pas quelque part ? (dans un forum, même privé, par exemple ?)
0
bg62 Messages postés 23594 Date d'inscription samedi 22 octobre 2005 Statut Modérateur Dernière intervention 1 mai 2024 2 363
10 janv. 2010 à 15:33
il te faut utiliser robots.txt ET les balises avec nofollow, noindex ... etc ...
mais maintenant que ces pages y sont ce sera encore plus dur de les enlever que de faire prendre un site par un moteur ...
maintenant si c'est l'urgence (mais qui va tomber dessus et avec quels mots clés pour la recherche ... sur quelle page de résultats ... ?) il y a aussi chez les gros moteurs des outils pour demander la suppression de pages indexées ...
0
En fait, j'ai posé la question à 1&1 avant de venir.
La réponse ?
"Le fait que les moteurs découvrent votre nom de domaine sans que vous ne le soumettiez est ce que l'on appel le référencement naturel.
Cette pratique n'est pas spécifique à 1&1"
Ils ne m'ont rien dit de plus, mais ça suppose que c'est eux qui ont donné l'adresse.

Et oui, je suis certain que cette adresse ne traîne nul par ailleurs (rien trouvé d'autre avec mon nom de domaine sur google).
Par contre, je suis tombé sur un blog décrivant un problème similaire : http://blog.domaineprive.com/ s'était retrouvé indexé sur google parce que le propriétaire de nom de domaine avait écrit cette adresse dans un mail transmit par GMail. Est-il possible que google viole le secret de la correspondance pour agrandir son index ?

Concernant les "outils de suppression" : ceux de google ont marché (mais googlebot continue de scanner le robots.txt), pour msn j'ai du envoyer 6 mails assez saignants pour qu'ils me répondent "ce sera fait dans 5 jours" (le délai va bientôt expirer, on verra à ce moment là) et yahoo dit "mettez un robots.txt" (mais ça ne retire pas l'entrée de leur index, ça se contente de bloquer les futures indexations) et "on ne retire pas manuellement de l'index parce qu'on ne peut vérifier la légitimité de la demande" (mon poing va être très légitime). Je n'ai pas encore consulté voila, mais j'espère ne pas avoir à me faire c**** de la même manière...

Les nofollow sont inutiles puisque l'index ne contient pour lien que celui vers le validateur W3C (je n'ai rien mit d'autre pour éviter que quelqu'un qui tombe dessus par hasard ne puisse connaître la liste des fichiers/répertoires).
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
bg62 Messages postés 23594 Date d'inscription samedi 22 octobre 2005 Statut Modérateur Dernière intervention 1 mai 2024 2 363
10 janv. 2010 à 19:02
Ils ne m'ont rien dit de plus, mais ça suppose que c'est eux qui ont donné l'adresse. 

je n'en vois absolument pas l'intéret ... d'autant plus qu'ils bloquent l'adresse lors de l'achat d'un ndd ... et il faut faire suater l'index pour le débloquer ...
indexé sur google parce que le propriétaire de nom de domaine avait écrit cette adresse dans un mail transmit par GMail. Est-il possible que google viole le secret de la correspondance pour agrandir son index ? 

faut pas rêver non plus google à autre chose à faire ... mais si ce mail s'est "promené" là oui ... ça peut laisser des traces et encore !!!
"outils de suppression" : ceux de google ont marché (mais googlebot continue de scanner le robots.txt), pour msn j'ai du envoyer 6 mails assez saignants pour qu'ils me répondent "ce sera fait dans 5 jours" (le délai va bientôt expirer, on verra à ce moment là) et yahoo dit "mettez un robots.txt" (mais ça ne retire pas l'entrée de leur index, ça se contente de bloquer les futures indexations) et "on ne retire pas manuellement de l'index parce qu'on ne peut vérifier la légitimité de la demande"

donc google ça va être ok quand le cache sera vidé ??? qu'il scanne encore on s'en fiche puisque si tout est bien fait il ne doit plus rien prendre (mais s'il y a des liens ailleurs qui envoient ça ne s'arretera jamais ... pour les autres moteurs non plus !)
pour msn et yahoo ... faut pas être parano non plus, cela va se calmer et si la légitimité du site n'est pas vérifiable heureusement qu'ils ne peuvent pas supprimer sinon on ferait aussi disparaître commentçamarche ...
Les nofollow sont inutiles puisque l'index ne contient pour lien que celui vers le validateur W3C


hé hé ... et qui renvoie vers ... devine !!!
si encore il y avait "noindex" là ça avancerait bien les choses ...
0
Sauf que la légitimité peut très facilement être vérifiée :
GET /robots.txt HTTP/1.1
User-agent: *
Disallow: /
C'est suffisant pour prouver que je ne veux pas être indexé ?

Concernant Google, c'est OK (mais il a fallu que je m'inscrive et que je valide mon site pour pouvoir le supprimer "pendant 90 jours" de l'index)...
Pour les autres, toujours en attente...

Pour le W3C, effectivement...
Mais comme mondomaine.com n'est pas sur w3.org, ne devrait-il pas relire le robots.txt et donc NE PAS CHARGER le index.html (qu'il ne devrait pas avoir lu de toute façon) ?
J'ajoute quand même les meta, au cas où...

Donc en gros... VIVE LE MINITEL 2.0 !
0
bg62 Messages postés 23594 Date d'inscription samedi 22 octobre 2005 Statut Modérateur Dernière intervention 1 mai 2024 2 363
10 janv. 2010 à 19:41
Sauf que la légitimité peut très facilement être vérifiée :
GET /robots.txt HTTP/1.1
User-agent: *
Disallow: / 

ah bon c'est nouveau ça ...
pour le W3C tu ne dois pas avoir tout compris ...
Donc en gros... VIVE LE MINITEL 2.0 !

oui vaut mieux, moi j'abandonne dans ces conditions ...
0
notobe Messages postés 1952 Date d'inscription mercredi 11 novembre 2009 Statut Membre Dernière intervention 8 juillet 2011 213
10 janv. 2010 à 20:16
bg, pourriez-vous être plus mesuré dans le ton de vos réponses ?
Il n'y a vraiment pas de quoi pendre balantre de haut comme ça.

Les problèmes d'indexation de sites ayant bien mis des meta de non indexation et des robots.txt existent bien. Ce n'est pas le premier cas que j'entends d'aberrations de ce genre, surtout de la part de yahoo ou de msn.

Effectivement, un robot.txt correct qui refuse l'indexation devrait être respecté des moteurs, avec ou sans BL.
Il y a un vrai pb de côté là... Et nous ne sommes absolument pas maitres de cette situation.
0
bg62 Messages postés 23594 Date d'inscription samedi 22 octobre 2005 Statut Modérateur Dernière intervention 1 mai 2024 2 363 > notobe Messages postés 1952 Date d'inscription mercredi 11 novembre 2009 Statut Membre Dernière intervention 8 juillet 2011
10 janv. 2010 à 20:26
Effectivement, un robot.txt correct qui refuse l'indexation devrait être respecté des moteurs, avec ou sans BL. 

ben ce n'est pas le cas du tout très souvent !!!
on en a déjà parlé ... ET les balises en nofollow ou noindex sont bien plus puissantes !!!
maintenant si tu veux prendre la suite vas-y ... je te laisse, moi les zzzzanonymes qui font tout et n'importe quoi, qui viennent pleurer ensuite, mais sans donner assez d'éléments ... raz the bol !
le "bébé" est à toi ... trouve-lui la solution ... (et elle existe !!!)

ps :
Et nous ne sommes absolument pas maitres de cette situation. 

surtout quand on ne sait pas faire !
0
notobe Messages postés 1952 Date d'inscription mercredi 11 novembre 2009 Statut Membre Dernière intervention 8 juillet 2011 213 > bg62 Messages postés 23594 Date d'inscription samedi 22 octobre 2005 Statut Modérateur Dernière intervention 1 mai 2024
10 janv. 2010 à 20:37
décidément, quelle agressivité... et quelle prétention !
Ces réactions sont vraiment indignes d'un homme de votre âge...
0
GMax. Messages postés 576 Date d'inscription lundi 14 décembre 2009 Statut Membre Dernière intervention 2 février 2010 124
10 janv. 2010 à 20:22
0
bg62 Messages postés 23594 Date d'inscription samedi 22 octobre 2005 Statut Modérateur Dernière intervention 1 mai 2024 2 363
10 janv. 2010 à 20:28
apparemment pour google c'est fait ... tu as lu plus haut avant de répondre ???
0
GMax. Messages postés 576 Date d'inscription lundi 14 décembre 2009 Statut Membre Dernière intervention 2 février 2010 124 > bg62 Messages postés 23594 Date d'inscription samedi 22 octobre 2005 Statut Modérateur Dernière intervention 1 mai 2024
10 janv. 2010 à 20:38
Je transmets un lien officiel de Google, pour que ce sois sur.
0