Grep -o pour extraire du texte avec des accents : marche pas
Résolu
                    
        
     
             
                    Swiss Knight
    
        
    
                    Messages postés
            
                
     
             
            2257
        
            
                                    Statut
            Membre
                    
                -
                                     
Swiss Knight Messages postés 2257 Statut Membre -
        Swiss Knight Messages postés 2257 Statut Membre -
        Salut, 
j'aimerai extraire des portions de texte d'un fichier html avec grep -o mais dès qu'il y a un caractère accentué plus rien ne sort quand je lui passe l'argument suivant .* pour matcher toute chaîne de caractères comprise entre deux balises bien précises.
Exemple :
Ce code me trouve toutes les portions de texte non accentué qui correspondent, mais seulement les portions non accentuées :(
Quelu'un sait pourquoi ?
Problème d'encodage ?
Merci !
"Si vous ne pouvez expliquer un concept à un enfant de six ans, c'est que vous ne le comprenez pas complètement." -A. Einsten-
                
            
                
    
    
    
        j'aimerai extraire des portions de texte d'un fichier html avec grep -o mais dès qu'il y a un caractère accentué plus rien ne sort quand je lui passe l'argument suivant .* pour matcher toute chaîne de caractères comprise entre deux balises bien précises.
Exemple :
$ grep -o 'fin:balisep1>.*</tr>'
Ce code me trouve toutes les portions de texte non accentué qui correspondent, mais seulement les portions non accentuées :(
Quelu'un sait pourquoi ?
Problème d'encodage ?
Merci !
"Si vous ne pouvez expliquer un concept à un enfant de six ans, c'est que vous ne le comprenez pas complètement." -A. Einsten-
        A voir également:         
- "Grep -o"
- O&o shutup10 - Télécharger - Confidentialité
- O&o defrag - Télécharger - Optimisation
- Grep recursif - Astuces et Solutions
- Que veut dire o ✓ - Forum Mail
- Que veut dire o// ?? - Forum Mail
5 réponses
                        
                    Je travaille sous Ubuntu 12.04 en version 64 bits :
 
                
                
    
                $ uname -a : Linux swissknight-pc-portable 3.2.0-40-generic #64-Ubuntu SMP Mon Mar 25 21:22:10 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux
                        
                    en html, les accents sont codés comme ça (sans l'espace) & acirc;& agrave;  il n'affiche pas ça ?
edit: et avec grep -Po
    
                edit: et avec grep -Po
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
                        
                    Salut,
alors avant ; j'ai passé le fichier en utf-8 comme ceci :
Et apparemment ça fonctionne.
Mais sans l'option -P à grep, ni -E, sinon ça ne marche pas (fichier vide en sortie).
J'avais remplacé les codes des accents HTML par les vrais accents au préalable.
                
                
    
                alors avant ; j'ai passé le fichier en utf-8 comme ceci :
iconv -f ISO-8859-1 -t UTF-8 -o "$fichier_utf8" "$mon_fichier" mv "$fichier_utf8" "$mon_fichier"
Et apparemment ça fonctionne.
Mais sans l'option -P à grep, ni -E, sinon ça ne marche pas (fichier vide en sortie).
J'avais remplacé les codes des accents HTML par les vrais accents au préalable.
