[moteur de recherche] extraction selective

Question

BonjourConnaitriez vous un moyen d'extraire uniquement les url qui s'affichent (au milieu de beaucoup d'autres infos -title, meta description, etc.) dans les pages de résultats d'une requete sur moteur de recherche?D'avance, merci à tousPaul

Gihef · Answer

Bonjour, Je connais un moyen qui intervient après enregistrement des pages. Comme je débute dans ce domaine, les résultats sont perfectibles. Et je suppose que tu utilises Google. Pour d'autres, il faudra adapter. Il s'agit d'utiliser des “regexp” (Regular Expressions ou expressions régulières, rationnelles) avec un outil comme grep. Ça permet de rechercher/remplacer dans des fichiers. C'est très puissant. Je ne l'utilise pas directement dans une console mais dans un éditeur de texte pour Mac, TextWrangler http://www.barebones.com/products/textwrangler/ Il doit en exister pour PC-IBM. Ne serait-celui qui est mentionné (pub) dans le résultat de cette requête chez Google https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl Pour info • Pour un document en html j'ai utilisé les opérateurs, pour la recherche : (

)[\W\w\s]*?()|([\W\w\s\D]*?Google) pour le remplacement \→ \2\3\4 \3\5
• Pour un document en txt j'ai utilisé les opérateurs, pour la recherche : ([\W\w\s]*?|

)[\W\w\s]*?()|([\W\w\s]*?) pour le remplacement \3 Le résultat est visible ici : - page d'origine http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle.html - résultat, toujours au format html http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.html - resultat, maintenant au format txt http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.txt C'est à peu près correct, mais il traîne toujours un peu de texte inutile à la fin que je n'arrive pas à supprimer. Une idée à améliorer donc. + Je poste un nouveau fil à ce sujet dans programmation developpement

[moteur de recherche] extraction selective

1 réponse

Discussions similaires

Newsletters