[moteur de recherche] extraction selective
paulau
Messages postés
1
Date d'inscription
Statut
Membre
Dernière intervention
-
Gihef Messages postés 5150 Date d'inscription Statut Contributeur Dernière intervention -
Gihef Messages postés 5150 Date d'inscription Statut Contributeur Dernière intervention -
Bonjour
Connaitriez vous un moyen d'extraire uniquement les url qui s'affichent (au milieu de beaucoup d'autres infos -title, meta description, etc.) dans les pages de résultats d'une requete sur moteur de recherche?
D'avance, merci à tous
Paul
Connaitriez vous un moyen d'extraire uniquement les url qui s'affichent (au milieu de beaucoup d'autres infos -title, meta description, etc.) dans les pages de résultats d'une requete sur moteur de recherche?
D'avance, merci à tous
Paul
A voir également:
- [moteur de recherche] extraction selective
- Recherche automatique des chaînes ne fonctionne pas - Guide
- Google moteur de recherche page d'accueil - Guide
- Copernic moteur de recherche - Télécharger - Navigateurs
- Copernic Desktop Search - Télécharger - Utilitaires
- Recherche de pairs utorrent ✓ - Forum Téléchargement
1 réponse
Bonjour,
Je connais un moyen qui intervient après enregistrement des pages.
Comme je débute dans ce domaine, les résultats sont perfectibles.
Et je suppose que tu utilises Google. Pour d'autres, il faudra adapter.
Il s'agit d'utiliser des “regexp” (Regular Expressions ou expressions régulières, rationnelles) avec un outil comme grep.
Ça permet de rechercher/remplacer dans des fichiers. C'est très puissant.
Je ne l'utilise pas directement dans une console mais dans un éditeur de texte pour Mac, TextWrangler http://www.barebones.com/products/textwrangler/
Il doit en exister pour PC-IBM. Ne serait-celui qui est mentionné (pub) dans le résultat de cette requête chez Google https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl
Pour info
• Pour un document en html j'ai utilisé les opérateurs,
pour la recherche :
(<!--a--><div><p [\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s\D]*?Google</font>)
pour le remplacement
\r\→ \2\3\4\t\3\5 <br />
• Pour un document en txt j'ai utilisé les opérateurs,
pour la recherche :
(<html>[\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s]*?</html>)
pour le remplacement
\r\3
Le résultat est visible ici :
- page d'origine
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle.html
- résultat, toujours au format html
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.html
- resultat, maintenant au format txt
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.txt
C'est à peu près correct, mais il traîne toujours un peu de texte inutile à la fin que je n'arrive pas à supprimer.
Une idée à améliorer donc.
+ Je poste un nouveau fil à ce sujet dans programmation developpement
Je connais un moyen qui intervient après enregistrement des pages.
Comme je débute dans ce domaine, les résultats sont perfectibles.
Et je suppose que tu utilises Google. Pour d'autres, il faudra adapter.
Il s'agit d'utiliser des “regexp” (Regular Expressions ou expressions régulières, rationnelles) avec un outil comme grep.
Ça permet de rechercher/remplacer dans des fichiers. C'est très puissant.
Je ne l'utilise pas directement dans une console mais dans un éditeur de texte pour Mac, TextWrangler http://www.barebones.com/products/textwrangler/
Il doit en exister pour PC-IBM. Ne serait-celui qui est mentionné (pub) dans le résultat de cette requête chez Google https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl
Pour info
• Pour un document en html j'ai utilisé les opérateurs,
pour la recherche :
(<!--a--><div><p [\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s\D]*?Google</font>)
pour le remplacement
\r\→ \2\3\4\t\3\5 <br />
• Pour un document en txt j'ai utilisé les opérateurs,
pour la recherche :
(<html>[\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s]*?</html>)
pour le remplacement
\r\3
Le résultat est visible ici :
- page d'origine
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle.html
- résultat, toujours au format html
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.html
- resultat, maintenant au format txt
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.txt
C'est à peu près correct, mais il traîne toujours un peu de texte inutile à la fin que je n'arrive pas à supprimer.
Une idée à améliorer donc.
+ Je poste un nouveau fil à ce sujet dans programmation developpement