Grep -o pour extraire du texte avec des accents : marche pas
Résolu
Swiss Knight
Messages postés
1956
Date d'inscription
Statut
Membre
Dernière intervention
-
Swiss Knight Messages postés 1956 Date d'inscription Statut Membre Dernière intervention -
Swiss Knight Messages postés 1956 Date d'inscription Statut Membre Dernière intervention -
Salut,
j'aimerai extraire des portions de texte d'un fichier html avec grep -o mais dès qu'il y a un caractère accentué plus rien ne sort quand je lui passe l'argument suivant .* pour matcher toute chaîne de caractères comprise entre deux balises bien précises.
Exemple :
Ce code me trouve toutes les portions de texte non accentué qui correspondent, mais seulement les portions non accentuées :(
Quelu'un sait pourquoi ?
Problème d'encodage ?
Merci !
"Si vous ne pouvez expliquer un concept à un enfant de six ans, c'est que vous ne le comprenez pas complètement." -A. Einsten-
j'aimerai extraire des portions de texte d'un fichier html avec grep -o mais dès qu'il y a un caractère accentué plus rien ne sort quand je lui passe l'argument suivant .* pour matcher toute chaîne de caractères comprise entre deux balises bien précises.
Exemple :
$ grep -o 'fin:balisep1>.*</tr>'
Ce code me trouve toutes les portions de texte non accentué qui correspondent, mais seulement les portions non accentuées :(
Quelu'un sait pourquoi ?
Problème d'encodage ?
Merci !
"Si vous ne pouvez expliquer un concept à un enfant de six ans, c'est que vous ne le comprenez pas complètement." -A. Einsten-
A voir également:
- "Grep -o"
- O&o shutup10 - Télécharger - Confidentialité
- O&o defrag - Télécharger - Optimisation
- Grep recursif - Astuces et Solutions
- Find grep ✓ - Forum Linux / Unix
- Bouton on off o i - Forum Word
5 réponses
Je travaille sous Ubuntu 12.04 en version 64 bits :
$ uname -a : Linux swissknight-pc-portable 3.2.0-40-generic #64-Ubuntu SMP Mon Mar 25 21:22:10 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux
en html, les accents sont codés comme ça (sans l'espace) & acirc;& agrave; il n'affiche pas ça ?
edit: et avec grep -Po
edit: et avec grep -Po
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
Salut,
alors avant ; j'ai passé le fichier en utf-8 comme ceci :
Et apparemment ça fonctionne.
Mais sans l'option -P à grep, ni -E, sinon ça ne marche pas (fichier vide en sortie).
J'avais remplacé les codes des accents HTML par les vrais accents au préalable.
alors avant ; j'ai passé le fichier en utf-8 comme ceci :
iconv -f ISO-8859-1 -t UTF-8 -o "$fichier_utf8" "$mon_fichier" mv "$fichier_utf8" "$mon_fichier"
Et apparemment ça fonctionne.
Mais sans l'option -P à grep, ni -E, sinon ça ne marche pas (fichier vide en sortie).
J'avais remplacé les codes des accents HTML par les vrais accents au préalable.