[moteur de recherche] extraction selective
Fermé
paulau
Messages postés
1
Date d'inscription
mardi 22 août 2006
Statut
Membre
Dernière intervention
22 août 2006
-
22 août 2006 à 16:50
Gihef Messages postés 5150 Date d'inscription mercredi 20 juillet 2005 Statut Contributeur Dernière intervention 20 février 2023 - 27 août 2006 à 19:18
Gihef Messages postés 5150 Date d'inscription mercredi 20 juillet 2005 Statut Contributeur Dernière intervention 20 février 2023 - 27 août 2006 à 19:18
A voir également:
- [moteur de recherche] extraction selective
- Recherche automatique des chaînes ne fonctionne pas - Guide
- Google moteur de recherche page d'accueil - Guide
- Installer qwant moteur de recherche - Télécharger - Navigateurs
- Moteur de recherche sans censure - Accueil - Services en ligne
- Recherche adresse - Guide
1 réponse
Gihef
Messages postés
5150
Date d'inscription
mercredi 20 juillet 2005
Statut
Contributeur
Dernière intervention
20 février 2023
2 776
27 août 2006 à 19:18
27 août 2006 à 19:18
Bonjour,
Je connais un moyen qui intervient après enregistrement des pages.
Comme je débute dans ce domaine, les résultats sont perfectibles.
Et je suppose que tu utilises Google. Pour d'autres, il faudra adapter.
Il s'agit d'utiliser des “regexp” (Regular Expressions ou expressions régulières, rationnelles) avec un outil comme grep.
Ça permet de rechercher/remplacer dans des fichiers. C'est très puissant.
Je ne l'utilise pas directement dans une console mais dans un éditeur de texte pour Mac, TextWrangler http://www.barebones.com/products/textwrangler/
Il doit en exister pour PC-IBM. Ne serait-celui qui est mentionné (pub) dans le résultat de cette requête chez Google https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl
Pour info
• Pour un document en html j'ai utilisé les opérateurs,
pour la recherche :
(<!--a--><div><p [\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s\D]*?Google</font>)
pour le remplacement
\r\→ \2\3\4\t\3\5 <br />
• Pour un document en txt j'ai utilisé les opérateurs,
pour la recherche :
(<html>[\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s]*?</html>)
pour le remplacement
\r\3
Le résultat est visible ici :
- page d'origine
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle.html
- résultat, toujours au format html
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.html
- resultat, maintenant au format txt
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.txt
C'est à peu près correct, mais il traîne toujours un peu de texte inutile à la fin que je n'arrive pas à supprimer.
Une idée à améliorer donc.
+ Je poste un nouveau fil à ce sujet dans programmation developpement
Je connais un moyen qui intervient après enregistrement des pages.
Comme je débute dans ce domaine, les résultats sont perfectibles.
Et je suppose que tu utilises Google. Pour d'autres, il faudra adapter.
Il s'agit d'utiliser des “regexp” (Regular Expressions ou expressions régulières, rationnelles) avec un outil comme grep.
Ça permet de rechercher/remplacer dans des fichiers. C'est très puissant.
Je ne l'utilise pas directement dans une console mais dans un éditeur de texte pour Mac, TextWrangler http://www.barebones.com/products/textwrangler/
Il doit en exister pour PC-IBM. Ne serait-celui qui est mentionné (pub) dans le résultat de cette requête chez Google https://www.google.fr/search?as_q=regexp&num=100&hl=fr&lr=lang_fr&gws_rd=ssl
Pour info
• Pour un document en html j'ai utilisé les opérateurs,
pour la recherche :
(<!--a--><div><p [\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s\D]*?Google</font>)
pour le remplacement
\r\→ \2\3\4\t\3\5 <br />
• Pour un document en txt j'ai utilisé les opérateurs,
pour la recherche :
(<html>[\W\w\s]*?|<table [\W\w\s]*?)(<a class=l href=")(.*?)(">)[\W\w\s]*?(</a>)|(</a>[\W\w\s]*?</html>)
pour le remplacement
\r\3
Le résultat est visible ici :
- page d'origine
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle.html
- résultat, toujours au format html
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.html
- resultat, maintenant au format txt
http://gihef.bey.free.fr/CCM/extractselect/regexp-RechercheGoogle--result.txt
C'est à peu près correct, mais il traîne toujours un peu de texte inutile à la fin que je n'arrive pas à supprimer.
Une idée à améliorer donc.
+ Je poste un nouveau fil à ce sujet dans programmation developpement