Grep -o pour extraire du texte avec des accents : marche pas

Résolu
Swiss Knight Messages postés 1956 Date d'inscription   Statut Membre Dernière intervention   -  
Swiss Knight Messages postés 1956 Date d'inscription   Statut Membre Dernière intervention   -
Salut,
j'aimerai extraire des portions de texte d'un fichier html avec grep -o mais dès qu'il y a un caractère accentué plus rien ne sort quand je lui passe l'argument suivant .* pour matcher toute chaîne de caractères comprise entre deux balises bien précises.

Exemple :
$ grep -o 'fin:balisep1>.*</tr>' 

Ce code me trouve toutes les portions de texte non accentué qui correspondent, mais seulement les portions non accentuées :(

Quelu'un sait pourquoi ?
Problème d'encodage ?
Merci !

"Si vous ne pouvez expliquer un concept à un enfant de six ans, c'est que vous ne le comprenez pas complètement." -A. Einsten-
A voir également:

5 réponses

dubcek Messages postés 18789 Date d'inscription   Statut Contributeur Dernière intervention   5 637
 
hello
quel Unix ?
0
Swiss Knight Messages postés 1956 Date d'inscription   Statut Membre Dernière intervention   110
 
Je travaille sous Ubuntu 12.04 en version 64 bits :
$ uname -a : Linux swissknight-pc-portable 3.2.0-40-generic #64-Ubuntu SMP Mon Mar 25 21:22:10 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

0
Swiss Knight Messages postés 1956 Date d'inscription   Statut Membre Dernière intervention   110
 
et si ça peut aider :
$ file -i $mon_fichier
parsed_file.txt: text/html; charset=iso-8859-1
0
dubcek Messages postés 18789 Date d'inscription   Statut Contributeur Dernière intervention   5 637
 
en html, les accents sont codés comme ça (sans l'espace) & acirc;& agrave; il n'affiche pas ça ?

edit: et avec grep -Po
0
dubcek Messages postés 18789 Date d'inscription   Statut Contributeur Dernière intervention   5 637
 
et avec grep -Po
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Swiss Knight Messages postés 1956 Date d'inscription   Statut Membre Dernière intervention   110
 
Salut,

alors avant ; j'ai passé le fichier en utf-8 comme ceci :
iconv -f ISO-8859-1 -t UTF-8 -o "$fichier_utf8" "$mon_fichier"
mv "$fichier_utf8" "$mon_fichier"


Et apparemment ça fonctionne.
Mais sans l'option -P à grep, ni -E, sinon ça ne marche pas (fichier vide en sortie).

J'avais remplacé les codes des accents HTML par les vrais accents au préalable.

0