Scroogle

sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 - 11 janv. 2005 à 11:47
zefido Messages postés 1 Date d'inscription lundi 1 mars 2010 Statut Membre Dernière intervention 1 mars 2010 - 1 mars 2010 à 11:30
Scroogle est un proxy qui utilise Google pour faire les recherches.
Résultats en une seul page, sans pub, sans cookies.

http://www.scroogle.org/cgi-bin/scraper.htm

Curieux.

Le proxy est même téléchargeable et vous pouvez l'installer chez vous (c'est un petit programme en C).

Un article à propos de Scroogle:
http://www.theregister.co.uk/2005/01/11/open_source_google_scraper/

6 réponses

teebo Messages postés 33491 Date d'inscription jeudi 14 octobre 2004 Statut Modérateur Dernière intervention 24 février 2011 1 793
11 janv. 2005 à 12:13
Par contre ça ne semble renvoyer que 100 résultats...

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
2
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 655
11 janv. 2005 à 14:33
ah oui tiens ils n'acceptent pas les GET. Dommage.
0
AsKy Messages postés 998 Date d'inscription vendredi 25 janvier 2002 Statut Contributeur Dernière intervention 21 octobre 2006 65
13 janv. 2005 à 18:49
tiens a propos je suis tombé par hasard sur une remarque de Chris DiBona (qui apparemment a un lien avec google, cf http://it.slashdot.org/article.pl?sid=05/01/12/1655246) sur son blog:
http://egofood.blogspot.com/. regardez l'article ' The Register is Pretty Funny..' :o)

asky |L'intelligence artificielle se définit comme 
     |le contraire de la bêtise naturelle.
0
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 655
13 janv. 2005 à 19:13
oui effectivement :-)


Ceci dit, Andrew Orlowski n'a pas totalement tort.

J'ai écris le programme webGobbler (http://sebsauvage.net/python/webgobbler ) en évitant soigneusement Google car ils ne veulent pas être interrogés par des programmes.
C'était la volonté de Google, j'ai respecté ça.


Après avoir lu l'article d'Andrew je me suis dit:
Et m*rde !
Google gagne des millions de dollars en récupérant le travail des autres. Nos sites, nos pages.
Alors pourquoi est-ce que je ne pourrais pas utiliser Google en retour, d'autant plus que je gagne pas le moindre centime là dessus ?


Alors j'ai décidé d'inclure Google dans webGobbler.
(Le collecteur est déjà développé et il marche. ll sera dispo dans la prochaine version).


Les autres moteurs de recherche sont nettement plus conciliants.
Ils acceuillent avec plaisir les développeurs (voir par exemple l'auteur de WebCollage: AltaVista lui a gracieusement développé un cgi rien que pour lui pour lui faciliter la tâche ! :-o
0
AsKy Messages postés 998 Date d'inscription vendredi 25 janvier 2002 Statut Contributeur Dernière intervention 21 octobre 2006 65 > sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019
13 janv. 2005 à 19:33
je suis d'accord, Andrew Orlowski n'a pas tort, mais c juste que la remarque m'a fait marrer j'avais meme pas fait attention en plus :)

sinon, je vois pas l'interet qu'a google a se 'refermer' comme ca en refusant d'etre interrogés par d'autres... c'est a cause des AdWords? mais ils n'interviennent pas dans les images !?

(interessant webgobbler d'ailleurs j'ai regardé les apercus)

asky |L'intelligence artificielle se définit comme 
     |le contraire de la bêtise naturelle.
0
SirHill Messages postés 4060 Date d'inscription vendredi 19 mars 2004 Statut Contributeur Dernière intervention 19 avril 2020 541 > sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019
13 janv. 2005 à 19:52
On peut interroger Google en passant par son API [http://www.google.com/apis/], mais le nombre de requêtes est limité...


Alors j'ai décidé d'inclure Google dans webGobbler.

Comment as-tu procédé ? :)
0
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 655 > SirHill Messages postés 4060 Date d'inscription vendredi 19 mars 2004 Statut Contributeur Dernière intervention 19 avril 2020
13 janv. 2005 à 21:09
le nombre de requêtes est limité...

Oui 1000 par jour. C'est pas beaucoup.
Dommage parcequ'il paraît que leur API est bien conçue.


Comment as-tu procédé ? :)

Quand Google voit arriver Python (User-agent: Python-urllib/2.1), il répond par une erreur HTTP 403 (Forbidden, interdit).

Je prend la même requête, mais je change le User-Agent (j'en met 12 différents, pris à chaque fois au hasard), et... miracle ! Google répond aux requêtes.
(J'ai quand même prix la précaution d'ajouter webGobbler au user-agent.)

Ensuite je décortique la page html que Google me renvoie pour extraire les URL des images.
0
SirHill Messages postés 4060 Date d'inscription vendredi 19 mars 2004 Statut Contributeur Dernière intervention 19 avril 2020 541 > SirHill Messages postés 4060 Date d'inscription vendredi 19 mars 2004 Statut Contributeur Dernière intervention 19 avril 2020
13 janv. 2005 à 22:01
Merci ! :-)
0
sebsauvage Messages postés 32893 Date d'inscription mercredi 29 août 2001 Statut Modérateur Dernière intervention 21 octobre 2019 15 655
20 janv. 2005 à 00:36
Tiens, en passant, la version1.0 beta 9 de webGobbler est dispo.

L'économiseur d'écran fonctionne, mais il faut encore écrire l'interface graphique de configuration (pour le moment ça ne peut se configurer qu'en ligne de commande.).
Et il faut encore construire les binaries à la main (avec cx_freeze).
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
zefido Messages postés 1 Date d'inscription lundi 1 mars 2010 Statut Membre Dernière intervention 1 mars 2010
1 mars 2010 à 11:30
Une version "française" plus conviviale, plus pratique :
http://www.onlinecasinodeutschland.site se rpésente comme nimporte quel moteur de recherche (style google) et affiche les résultats de Google ! (puissance de recherche, fiabilité etc... mais protection des données personnelles et de l'IP).
0
teebo Messages postés 33491 Date d'inscription jeudi 14 octobre 2004 Statut Modérateur Dernière intervention 24 février 2011 1 793
11 janv. 2005 à 13:07
Dommage ils utilisent la méthode POST, je crois pas que l'on puisse faire un search plugin pour mozilla :-S

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
-1