[regexp] Google URL seulement

Question

Bonjour, Dans un post du Forum webmastering affich 2349141 il est demandé comment ne conserver que les liens dans les résultats des moteurs de recherche. Merci de prendre la peine de le lire. J'ai pensé que grep, que je viens de découvrir, pouvait être utile et ai donc essayé. Les résultats que j'obtiens sont presque corrects. Je butte toutefois sur un problème. Il reste, à la fin du remplacement, une chaîne inutile suivie du motif qui me sert de repère “\→

” Merci de m'éclairer.

Gihef · Answer

En fait le motif est plutôt : “\→
”

lami20j · Answer

Salut, j'ai regardé les 2 messages mais pour dire la verité je n'ai pas très bien compris. Pourquoi? En général dans le parsing d'un fichier c'est bien d'avoir l'entrée - le traitement - la sortie. Je crois que les tests que tu fait sont plutôt ponctuels (corrige moi si je me trompe) donc donnée une solution généralisée ce n'est pas si simple. Par exemple avec Perl tu as des modules sur Cpan pour manipuler des données html. Les liens on les trouves dans les balises lien Donc dans l'absolu tu n'as qu'à récuperer ce que tu trouve entre guillements. Il faut pourtant tenir compte des pièges. La gourmandise et l'impatience d'une regex (je n'aime pas trop regexp). lami20j

Gihef · Answer

Bonjour,“je n'ai pas très bien compris”, ça me rassure car ‘je débute’ (-:J'aime traiter des données, du texte et ces outils, que je découvre, grep, sed, awk… me plaisent. Perl encore plus, mais je n'en suis pas encore là.“les tests que tu fait sont plutôt ponctuels”. En effet et je l'indique ‘il faudra adapter’. Ça ne fonctionne que dans l'environnement (Google) que je cite.La piste que je propose évite d'avoir à écrire un script (une future étape, peut-être ? Du type shell script qui semble plutôt adapté. Ou en Perl, mais plus tard encore.)Je suis donc contraint, avec l'outil dont je dispose, de traiter dans le fichier (pas de sortie) et donc d'enlever tout ce qui est en trop. Et en un seul passage*.J'aurais préféré pouvoir récupérer les <a class=l href="…> et les envoyer ailleurs.En voilà des contraintes.* paulau profil paulau n'a pas enregistré de profil et c'est son seul message. J'ai supposé qu'il est un utilisateur de Windows de base (?)+ “des modules sur Cpan” c'est-à-dire ?

lami20j · Answer

Salut, J'aurais préféré pouvoir récupérer les ou supprimer les NON

Gihef · Answer

Merci. Je veux en effet supprimer tout ce qui n'est pas des href. Et, tant qu'à faire, ne conserver qu'une seule référence à la même adresse. Et les “class=l” en sont une. En effet, dans https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl Google cite 3 fois la même référence et celle en “class=l” semble être la plus simple à traiterREGEX - REGEXP - Expressions régulières en PHP - Aide-mémoireLes autres sont “En cache” ou “Pages similaires”. Remarque, ils sont sympas, il mettent des repères ou etc. et leur mise en page en CSS fournit des classes comme

)[\W\w\s]*?()|([\W\w\s\D]*?Google)

lami20j · Answer

Re, Voilà ce que ça donne en Perl (je répète, c'est superficiel) J'ai sauvegarder le code source dans gihef.txt #! /usr/bin/perl # use strict;use warnings; open FIC,"gihef.txt" or die "E/S : $! "; while ( ) { print $1," " if //g; }lami20j

Gihef · Answer

Ça marche. Je l'ai enregistré dans le dossier prévu pour les scripts de TW en convertissant les fins de lignes pour Unix et hop… Et puis, comme “c'est superficiel”, je comprends. Tu pourrais me faire le même mais en me conservant un doc. html ? C'est à dire avec des liens cliquables. Du genre : … http://www.expreg.com/ … Tu vois. Chaque adresse reprise commme texte du lien. Faut vraiment que je me mette à Perl (-:

lami20j · Answer

#! /usr/bin/perl # use strict;use warnings; open FIC,"gihef.txt" or die "E/S : $! "; print ".. "; print ""; while ( ) { print "$1"," " if //g; } print " ";lami20j

Gihef · Answer

En essayant, ça ne pourrait pas ressembler à : print "",$1,"\">",$1,", " if //g; ? J'essaye.

sebsauvage · Answer

J'ai fait exactement ce genre de chose en Python, justement:https://sebsauvage.net/python/snyppets/index.html#google_searchça ne ramène les liens, et que les liens.et ça parcours automatiquement les pages de résultat.Libre à vous de réutiliser le source ou juste la regex.

Gihef · Answer

Merci à vous,On pourrait finir en chanson :“… You know, my Python boot is too tightI could'nt get it off last nightA week went byAnd now it's JulyI finally got it offAnd my girlfriend criedYou've got…”… à votre avis ?

Gihef · Answer

Merci.

[regexp] Google URL seulement

12 réponses

Discussions similaires

Newsletters