Scroogle
sebsauvage
Messages postés
32893
Date d'inscription
Statut
Modérateur
Dernière intervention
-
zefido Messages postés 1 Date d'inscription Statut Membre Dernière intervention -
zefido Messages postés 1 Date d'inscription Statut Membre Dernière intervention -
Scroogle est un proxy qui utilise Google pour faire les recherches.
Résultats en une seul page, sans pub, sans cookies.
http://www.scroogle.org/cgi-bin/scraper.htm
Curieux.
Le proxy est même téléchargeable et vous pouvez l'installer chez vous (c'est un petit programme en C).
Un article à propos de Scroogle:
http://www.theregister.co.uk/2005/01/11/open_source_google_scraper/
Résultats en une seul page, sans pub, sans cookies.
http://www.scroogle.org/cgi-bin/scraper.htm
Curieux.
Le proxy est même téléchargeable et vous pouvez l'installer chez vous (c'est un petit programme en C).
Un article à propos de Scroogle:
http://www.theregister.co.uk/2005/01/11/open_source_google_scraper/
6 réponses
Par contre ça ne semble renvoyer que 100 résultats...
Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
Qui va en mer pour son plaisir,
irait en enfer pour ses vacances
tiens a propos je suis tombé par hasard sur une remarque de Chris DiBona (qui apparemment a un lien avec google, cf http://it.slashdot.org/article.pl?sid=05/01/12/1655246) sur son blog:
http://egofood.blogspot.com/. regardez l'article ' The Register is Pretty Funny..' :o)
http://egofood.blogspot.com/. regardez l'article ' The Register is Pretty Funny..' :o)
asky |L'intelligence artificielle se définit comme |le contraire de la bêtise naturelle.
oui effectivement :-)
Ceci dit, Andrew Orlowski n'a pas totalement tort.
J'ai écris le programme webGobbler (http://sebsauvage.net/python/webgobbler ) en évitant soigneusement Google car ils ne veulent pas être interrogés par des programmes.
C'était la volonté de Google, j'ai respecté ça.
Après avoir lu l'article d'Andrew je me suis dit:
Et m*rde !
Google gagne des millions de dollars en récupérant le travail des autres. Nos sites, nos pages.
Alors pourquoi est-ce que je ne pourrais pas utiliser Google en retour, d'autant plus que je gagne pas le moindre centime là dessus ?
Alors j'ai décidé d'inclure Google dans webGobbler.
(Le collecteur est déjà développé et il marche. ll sera dispo dans la prochaine version).
Les autres moteurs de recherche sont nettement plus conciliants.
Ils acceuillent avec plaisir les développeurs (voir par exemple l'auteur de WebCollage: AltaVista lui a gracieusement développé un cgi rien que pour lui pour lui faciliter la tâche ! :-o
Ceci dit, Andrew Orlowski n'a pas totalement tort.
J'ai écris le programme webGobbler (http://sebsauvage.net/python/webgobbler ) en évitant soigneusement Google car ils ne veulent pas être interrogés par des programmes.
C'était la volonté de Google, j'ai respecté ça.
Après avoir lu l'article d'Andrew je me suis dit:
Et m*rde !
Google gagne des millions de dollars en récupérant le travail des autres. Nos sites, nos pages.
Alors pourquoi est-ce que je ne pourrais pas utiliser Google en retour, d'autant plus que je gagne pas le moindre centime là dessus ?
Alors j'ai décidé d'inclure Google dans webGobbler.
(Le collecteur est déjà développé et il marche. ll sera dispo dans la prochaine version).
Les autres moteurs de recherche sont nettement plus conciliants.
Ils acceuillent avec plaisir les développeurs (voir par exemple l'auteur de WebCollage: AltaVista lui a gracieusement développé un cgi rien que pour lui pour lui faciliter la tâche ! :-o
je suis d'accord, Andrew Orlowski n'a pas tort, mais c juste que la remarque m'a fait marrer j'avais meme pas fait attention en plus :)
sinon, je vois pas l'interet qu'a google a se 'refermer' comme ca en refusant d'etre interrogés par d'autres... c'est a cause des AdWords? mais ils n'interviennent pas dans les images !?
(interessant webgobbler d'ailleurs j'ai regardé les apercus)
sinon, je vois pas l'interet qu'a google a se 'refermer' comme ca en refusant d'etre interrogés par d'autres... c'est a cause des AdWords? mais ils n'interviennent pas dans les images !?
(interessant webgobbler d'ailleurs j'ai regardé les apercus)
asky |L'intelligence artificielle se définit comme |le contraire de la bêtise naturelle.
On peut interroger Google en passant par son API [http://www.google.com/apis/], mais le nombre de requêtes est limité...
Alors j'ai décidé d'inclure Google dans webGobbler.
Comment as-tu procédé ? :)
Alors j'ai décidé d'inclure Google dans webGobbler.
Comment as-tu procédé ? :)
le nombre de requêtes est limité...
Oui 1000 par jour. C'est pas beaucoup.
Dommage parcequ'il paraît que leur API est bien conçue.
Comment as-tu procédé ? :)
Quand Google voit arriver Python (User-agent: Python-urllib/2.1), il répond par une erreur HTTP 403 (Forbidden, interdit).
Je prend la même requête, mais je change le User-Agent (j'en met 12 différents, pris à chaque fois au hasard), et... miracle ! Google répond aux requêtes.
(J'ai quand même prix la précaution d'ajouter webGobbler au user-agent.)
Ensuite je décortique la page html que Google me renvoie pour extraire les URL des images.
Oui 1000 par jour. C'est pas beaucoup.
Dommage parcequ'il paraît que leur API est bien conçue.
Comment as-tu procédé ? :)
Quand Google voit arriver Python (User-agent: Python-urllib/2.1), il répond par une erreur HTTP 403 (Forbidden, interdit).
Je prend la même requête, mais je change le User-Agent (j'en met 12 différents, pris à chaque fois au hasard), et... miracle ! Google répond aux requêtes.
(J'ai quand même prix la précaution d'ajouter webGobbler au user-agent.)
Ensuite je décortique la page html que Google me renvoie pour extraire les URL des images.
Tiens, en passant, la version1.0 beta 9 de webGobbler est dispo.
L'économiseur d'écran fonctionne, mais il faut encore écrire l'interface graphique de configuration (pour le moment ça ne peut se configurer qu'en ligne de commande.).
Et il faut encore construire les binaries à la main (avec cx_freeze).
L'économiseur d'écran fonctionne, mais il faut encore écrire l'interface graphique de configuration (pour le moment ça ne peut se configurer qu'en ligne de commande.).
Et il faut encore construire les binaries à la main (avec cx_freeze).
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
Une version "française" plus conviviale, plus pratique :
http://www.onlinecasinodeutschland.site se rpésente comme nimporte quel moteur de recherche (style google) et affiche les résultats de Google ! (puissance de recherche, fiabilité etc... mais protection des données personnelles et de l'IP).
http://www.onlinecasinodeutschland.site se rpésente comme nimporte quel moteur de recherche (style google) et affiche les résultats de Google ! (puissance de recherche, fiabilité etc... mais protection des données personnelles et de l'IP).