Scroogle

sebsauvage Messages postés 33284 Date d'inscription Statut Modérateur Dernière intervention -
zefido Messages postés 2 Statut Membre - 1 mars 2010 à 11:30

Scroogle est un proxy qui utilise Google pour faire les recherches.
Résultats en une seul page, sans pub, sans cookies.

http://www.scroogle.org/cgi-bin/scraper.htm

Curieux.

Le proxy est même téléchargeable et vous pouvez l'installer chez vous (c'est un petit programme en C).

Un article à propos de Scroogle:
http://www.theregister.co.uk/2005/01/11/open_source_google_scraper/

Afficher la suite

6 réponses

Réponse 1 / 6

Meilleure réponse
La meilleure réponse est la réponse qui a été validée par nos équipes.
teebo Messages postés 33585 Date d'inscription Statut Contributeur Dernière intervention 1 797

Par contre ça ne semble renvoyer que 100 résultats...

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
2
Réponse 2 / 6
sebsauvage Messages postés 33284 Date d'inscription Statut Modérateur Dernière intervention 15 684

ah oui tiens ils n'acceptent pas les GET. Dommage.
0
Réponse 3 / 6
AsKy Messages postés 1003 Statut Contributeur 65
tiens a propos je suis tombé par hasard sur une remarque de Chris DiBona (qui apparemment a un lien avec google, cf http://it.slashdot.org/article.pl?sid=05/01/12/1655246) sur son blog:
http://egofood.blogspot.com/. regardez l'article ' The Register is Pretty Funny..' :o)
```
asky |L'intelligence artificielle se définit comme 
     |le contraire de la bêtise naturelle.
```
0
1. sebsauvage Messages postés 33284 Date d'inscription Statut Modérateur Dernière intervention 15 684
  
  oui effectivement :-)
  
  Ceci dit, Andrew Orlowski n'a pas totalement tort.
  
  J'ai écris le programme webGobbler (http://sebsauvage.net/python/webgobbler ) en évitant soigneusement Google car ils ne veulent pas être interrogés par des programmes.
  C'était la volonté de Google, j'ai respecté ça.
  
  Après avoir lu l'article d'Andrew je me suis dit:
  Et m*rde !
  Google gagne des millions de dollars en récupérant le travail des autres. Nos sites, nos pages.
  Alors pourquoi est-ce que je ne pourrais pas utiliser Google en retour, d'autant plus que je gagne pas le moindre centime là dessus ?
  
  Alors j'ai décidé d'inclure Google dans webGobbler.
  (Le collecteur est déjà développé et il marche. ll sera dispo dans la prochaine version).
  
  Les autres moteurs de recherche sont nettement plus conciliants.
  Ils acceuillent avec plaisir les développeurs (voir par exemple l'auteur de WebCollage: AltaVista lui a gracieusement développé un cgi rien que pour lui pour lui faciliter la tâche ! :-o
  
  0
2. AsKy Messages postés 1003 Statut Contributeur 65 > sebsauvage Messages postés 33284 Date d'inscription Statut Modérateur Dernière intervention
  
  je suis d'accord, Andrew Orlowski n'a pas tort, mais c juste que la remarque m'a fait marrer j'avais meme pas fait attention en plus :)
  
  sinon, je vois pas l'interet qu'a google a se 'refermer' comme ca en refusant d'etre interrogés par d'autres... c'est a cause des AdWords? mais ils n'interviennent pas dans les images !?
  
  (interessant webgobbler d'ailleurs j'ai regardé les apercus)
  
  asky |L'intelligence artificielle se définit comme |le contraire de la bêtise naturelle.
  
  0
3. SirHill Messages postés 4070 Statut Contributeur 543 > sebsauvage Messages postés 33284 Date d'inscription Statut Modérateur Dernière intervention
  
  On peut interroger Google en passant par son API [http://www.google.com/apis/], mais le nombre de requêtes est limité...
  
  Alors j'ai décidé d'inclure Google dans webGobbler.
  
  Comment as-tu procédé ? :)
  
  0
4. sebsauvage Messages postés 33284 Date d'inscription Statut Modérateur Dernière intervention 15 684 > SirHill Messages postés 4070 Statut Contributeur
  
  le nombre de requêtes est limité...
  
  Oui 1000 par jour. C'est pas beaucoup.
  Dommage parcequ'il paraît que leur API est bien conçue.
  
  Comment as-tu procédé ? :)
  
  Quand Google voit arriver Python (User-agent: Python-urllib/2.1), il répond par une erreur HTTP 403 (Forbidden, interdit).
  
  Je prend la même requête, mais je change le User-Agent (j'en met 12 différents, pris à chaque fois au hasard), et... miracle ! Google répond aux requêtes.
  (J'ai quand même prix la précaution d'ajouter webGobbler au user-agent.)
  
  Ensuite je décortique la page html que Google me renvoie pour extraire les URL des images.
  
  0
5. SirHill Messages postés 4070 Statut Contributeur 543 > SirHill Messages postés 4070 Statut Contributeur
  
  Merci ! :-)
  
  0
Réponse 4 / 6
sebsauvage Messages postés 33284 Date d'inscription Statut Modérateur Dernière intervention 15 684

Tiens, en passant, la version1.0 beta 9 de webGobbler est dispo.

L'économiseur d'écran fonctionne, mais il faut encore écrire l'interface graphique de configuration (pour le moment ça ne peut se configurer qu'en ligne de commande.).
Et il faut encore construire les binaries à la main (avec cx_freeze).
0
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
Réponse 5 / 6
zefido Messages postés 2 Statut Membre

Une version "française" plus conviviale, plus pratique :
http://www.onlinecasinodeutschland.site se rpésente comme nimporte quel moteur de recherche (style google) et affiche les résultats de Google ! (puissance de recherche, fiabilité etc... mais protection des données personnelles et de l'IP).
0
Réponse 6 / 6
teebo Messages postés 33585 Date d'inscription Statut Contributeur Dernière intervention 1 797

Dommage ils utilisent la méthode POST, je crois pas que l'on puisse faire un search plugin pour mozilla :-S

Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
-1

Newsletters