grep -o pour extraire du texte avec des accents : marche pas Résolu

Question

Salut, j'aimerai extraire des portions de texte d'un fichier html avec grep -o mais dès qu'il y a un caractère accentué plus rien ne sort quand je lui passe l'argument suivant .* pour matcher toute chaîne de caractères comprise entre deux balises bien précises. Exemple : $ grep -o 'fin:balisep1>.*' Ce code me trouve toutes les portions de texte non accentué qui correspondent, mais seulement les portions non accentuées :( Quelu'un sait pourquoi ? Problème d'encodage ? Merci ! "Si vous ne pouvez expliquer un concept à un enfant de six ans, c'est que vous ne le comprenez pas complètement." -A. Einsten-

dubcek · Answer

hello
quel Unix ?

Swiss Knight · Answer

Je travaille sous Ubuntu 12.04 en version 64 bits :
$ uname -a : Linux swissknight-pc-portable 3.2.0-40-generic #64-Ubuntu SMP Mon Mar 25 21:22:10 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

dubcek · Answer

en html, les accents sont codés comme ça (sans l'espace) & acirc;& agrave;  il n'affiche pas ça ?

edit: et avec  grep -Po

dubcek · Answer

et avec grep -Po

Swiss Knight · Answer

Salut,

alors avant ; j'ai passé le fichier en utf-8 comme ceci :
iconv -f ISO-8859-1 -t UTF-8 -o "$fichier_utf8" "$mon_fichier"
mv "$fichier_utf8" "$mon_fichier" 

Et apparemment ça fonctionne. 
Mais sans l'option -P à grep, ni -E, sinon ça ne marche pas (fichier vide en sortie).

J'avais remplacé les codes des accents HTML par les vrais accents au préalable.

Grep -o pour extraire du texte avec des accents : marche pas

5 réponses

Discussions similaires

Newsletters