Scroogle

sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention   -  
zefido Messages postés 1 Date d'inscription   Statut Membre Dernière intervention   -
Scroogle est un proxy qui utilise Google pour faire les recherches.
Résultats en une seul page, sans pub, sans cookies.

http://www.scroogle.org/cgi-bin/scraper.htm

Curieux.

Le proxy est même téléchargeable et vous pouvez l'installer chez vous (c'est un petit programme en C).

Un article à propos de Scroogle:
http://www.theregister.co.uk/2005/01/11/open_source_google_scraper/

6 réponses

teebo Messages postés 33491 Date d'inscription   Statut Modérateur Dernière intervention   1 793
 
Par contre ça ne semble renvoyer que 100 résultats...

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
2
sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention   15 662
 
ah oui tiens ils n'acceptent pas les GET. Dommage.
0
AsKy Messages postés 1001 Date d'inscription   Statut Contributeur Dernière intervention   65
 
tiens a propos je suis tombé par hasard sur une remarque de Chris DiBona (qui apparemment a un lien avec google, cf http://it.slashdot.org/article.pl?sid=05/01/12/1655246) sur son blog:
http://egofood.blogspot.com/. regardez l'article ' The Register is Pretty Funny..' :o)

asky |L'intelligence artificielle se définit comme 
     |le contraire de la bêtise naturelle.
0
sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention   15 662
 
oui effectivement :-)


Ceci dit, Andrew Orlowski n'a pas totalement tort.

J'ai écris le programme webGobbler (http://sebsauvage.net/python/webgobbler ) en évitant soigneusement Google car ils ne veulent pas être interrogés par des programmes.
C'était la volonté de Google, j'ai respecté ça.


Après avoir lu l'article d'Andrew je me suis dit:
Et m*rde !
Google gagne des millions de dollars en récupérant le travail des autres. Nos sites, nos pages.
Alors pourquoi est-ce que je ne pourrais pas utiliser Google en retour, d'autant plus que je gagne pas le moindre centime là dessus ?


Alors j'ai décidé d'inclure Google dans webGobbler.
(Le collecteur est déjà développé et il marche. ll sera dispo dans la prochaine version).


Les autres moteurs de recherche sont nettement plus conciliants.
Ils acceuillent avec plaisir les développeurs (voir par exemple l'auteur de WebCollage: AltaVista lui a gracieusement développé un cgi rien que pour lui pour lui faciliter la tâche ! :-o
0
AsKy Messages postés 1001 Date d'inscription   Statut Contributeur Dernière intervention   65 > sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention  
 
je suis d'accord, Andrew Orlowski n'a pas tort, mais c juste que la remarque m'a fait marrer j'avais meme pas fait attention en plus :)

sinon, je vois pas l'interet qu'a google a se 'refermer' comme ca en refusant d'etre interrogés par d'autres... c'est a cause des AdWords? mais ils n'interviennent pas dans les images !?

(interessant webgobbler d'ailleurs j'ai regardé les apercus)

asky |L'intelligence artificielle se définit comme 
     |le contraire de la bêtise naturelle.
0
SirHill Messages postés 4060 Date d'inscription   Statut Contributeur Dernière intervention   543 > sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention  
 
On peut interroger Google en passant par son API [http://www.google.com/apis/], mais le nombre de requêtes est limité...


Alors j'ai décidé d'inclure Google dans webGobbler.

Comment as-tu procédé ? :)
0
sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention   15 662 > SirHill Messages postés 4060 Date d'inscription   Statut Contributeur Dernière intervention  
 
le nombre de requêtes est limité...

Oui 1000 par jour. C'est pas beaucoup.
Dommage parcequ'il paraît que leur API est bien conçue.


Comment as-tu procédé ? :)

Quand Google voit arriver Python (User-agent: Python-urllib/2.1), il répond par une erreur HTTP 403 (Forbidden, interdit).

Je prend la même requête, mais je change le User-Agent (j'en met 12 différents, pris à chaque fois au hasard), et... miracle ! Google répond aux requêtes.
(J'ai quand même prix la précaution d'ajouter webGobbler au user-agent.)

Ensuite je décortique la page html que Google me renvoie pour extraire les URL des images.
0
SirHill Messages postés 4060 Date d'inscription   Statut Contributeur Dernière intervention   543 > SirHill Messages postés 4060 Date d'inscription   Statut Contributeur Dernière intervention  
 
Merci ! :-)
0
sebsauvage Messages postés 32893 Date d'inscription   Statut Modérateur Dernière intervention   15 662
 
Tiens, en passant, la version1.0 beta 9 de webGobbler est dispo.

L'économiseur d'écran fonctionne, mais il faut encore écrire l'interface graphique de configuration (pour le moment ça ne peut se configurer qu'en ligne de commande.).
Et il faut encore construire les binaries à la main (avec cx_freeze).
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
zefido Messages postés 1 Date d'inscription   Statut Membre Dernière intervention  
 
Une version "française" plus conviviale, plus pratique :
http://www.onlinecasinodeutschland.site se rpésente comme nimporte quel moteur de recherche (style google) et affiche les résultats de Google ! (puissance de recherche, fiabilité etc... mais protection des données personnelles et de l'IP).
0
teebo Messages postés 33491 Date d'inscription   Statut Modérateur Dernière intervention   1 793
 
Dommage ils utilisent la méthode POST, je crois pas que l'on puisse faire un search plugin pour mozilla :-S

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
-1