[moteur de recherche] extraction selective

Fermé
paulau Messages postés 1 Date d'inscription mardi 22 août 2006 Statut Membre Dernière intervention 22 août 2006 - 22 août 2006 à 16:50
Gihef Messages postés 5150 Date d'inscription mercredi 20 juillet 2005 Statut Contributeur Dernière intervention 20 février 2023 - 27 août 2006 à 19:18
Bonjour

Connaitriez vous un moyen d'extraire uniquement les url qui s'affichent (au milieu de beaucoup d'autres infos -title, meta description, etc.) dans les pages de résultats d'une requete sur moteur de recherche?

D'avance, merci à tous

Paul
A voir également:

1 réponse

Gihef Messages postés 5150 Date d'inscription mercredi 20 juillet 2005 Statut Contributeur Dernière intervention 20 février 2023 2 775
27 août 2006 à 19:18
Bonjour,

Je connais un moyen qui intervient après enregistrement des pages.
Comme je débute dans ce domaine, les résultats sont perfectibles.
Et je suppose que tu utilises Google. Pour d'autres, il faudra adapter.

Il s'agit d'utiliser des “regexp” (Regular Expressions ou expressions régulières, rationnelles) avec un outil comme grep.
Ça permet de rechercher/remplacer dans des fichiers. C'est très puissant.

Je ne l'utilise pas directement dans une console mais dans un éditeur de texte pour Mac, TextWrangler http://www.barebones.com/products/textwrangler/
Il doit en exister pour PC-IBM. Ne serait-celui qui est mentionné (pub) dans le résultat de cette requête chez Google https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl

Pour info
• Pour un document en html j'ai utilisé les opérateurs,
pour la recherche :
(<!--a--><div><p [\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s\D]*?Google</font>)
pour le remplacement
\r\&rarr; \2\3\4\t\3\5 <br />

• Pour un document en txt j'ai utilisé les opérateurs,
pour la recherche :
(<html>[\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s]*?</html>)
pour le remplacement
\r\3

Le résultat est visible ici :
- page d'origine
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle.html
- résultat, toujours au format html
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.html
- resultat, maintenant au format txt
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.txt

C'est à peu près correct, mais il traîne toujours un peu de texte inutile à la fin que je n'arrive pas à supprimer.

Une idée à améliorer donc.

+ Je poste un nouveau fil à ce sujet dans programmation developpement
0