[moteur de recherche] extraction selective

paulau Messages postés 1 Date d'inscription   Statut Membre Dernière intervention   -  
Gihef Messages postés 5150 Date d'inscription   Statut Contributeur Dernière intervention   -
Bonjour

Connaitriez vous un moyen d'extraire uniquement les url qui s'affichent (au milieu de beaucoup d'autres infos -title, meta description, etc.) dans les pages de résultats d'une requete sur moteur de recherche?

D'avance, merci à tous

Paul
A voir également:

1 réponse

Gihef Messages postés 5150 Date d'inscription   Statut Contributeur Dernière intervention   2 779
 
Bonjour,

Je connais un moyen qui intervient après enregistrement des pages.
Comme je débute dans ce domaine, les résultats sont perfectibles.
Et je suppose que tu utilises Google. Pour d'autres, il faudra adapter.

Il s'agit d'utiliser des “regexp” (Regular Expressions ou expressions régulières, rationnelles) avec un outil comme grep.
Ça permet de rechercher/remplacer dans des fichiers. C'est très puissant.

Je ne l'utilise pas directement dans une console mais dans un éditeur de texte pour Mac, TextWrangler http://www.barebones.com/products/textwrangler/
Il doit en exister pour PC-IBM. Ne serait-celui qui est mentionné (pub) dans le résultat de cette requête chez Google https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl

Pour info
• Pour un document en html j'ai utilisé les opérateurs,
pour la recherche :
(<!--a--><div><p [\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s\D]*?Google</font>)
pour le remplacement
\r\&rarr; \2\3\4\t\3\5 <br />

• Pour un document en txt j'ai utilisé les opérateurs,
pour la recherche :
(<html>[\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s]*?</html>)
pour le remplacement
\r\3

Le résultat est visible ici :
- page d'origine
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle.html
- résultat, toujours au format html
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.html
- resultat, maintenant au format txt
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.txt

C'est à peu près correct, mais il traîne toujours un peu de texte inutile à la fin que je n'arrive pas à supprimer.

Une idée à améliorer donc.

+ Je poste un nouveau fil à ce sujet dans programmation developpement
0