Detecter le charset

Question

Bonjour,

Savez-vous comment détecter l'encodage d'une chaine de caractère sous linux ?
J'ai essayé avec file, mais ça ne me donne pas le charset sauf dans quelques rares cas :

echo "<html>&é</html>" | file -
/dev/stdin: HTML document text

Merci

Utilisateur anonyme · Answer

salut,

rtfm! en entier !

gnugo · Answer

Je précise que j'ai juste besoin de détecter si le texte est en UFT-8 ou non

zipe31 · Answer

Salut,

Sur quel système ou distrib es-tu ?

Parce que chez moi (mint) voilà ce que j'obtiens avec le code source de ce message d'une part et ton exemple d'autre part :

$ file -b -i affich-26060402-detecter-le-charset.htm 
text/html; charset=iso-8859-1

$ file -b --mime-encoding affich-26060402-detecter-le-charset.htm 
iso-8859-1

$ echo "<html>&e</html>" | file -b --mime-encoding - 
us-ascii

$ echo "<html>&é</html>" | file -b --mime-encoding - 
utf-8

$

gnugo · Answer

Sinon s'il y a une solution en perl ou python, je suis preneur

dubcek · Answer

hello
essayer ce script perl : Perl script to detect encoding of one or multiple text files

gnugo · Answer

J'ai donc intégré ce code à mon script, et ça fonctionne pour l'instant
Mais j'ai peur que dans certains cas, il puisse avoir un comportement tout autre :/

Pouvez-vous me donner votre avis ?

function convertir_utf8 {
	if perl -e "use Encode::Guess; if(ref(guess_encoding(<>))) { exit 1; } else { exit 0; }"<<<"$*"; then iconv -f iso-8859-1 -t utf-8 <<<"$*"; else echo "$*"; fi
}
En entrée de cette fonction : du texte (tous caracères possibles, multiligne possible), soit en ISO-8859-1, soit en UTF8.
Et ça doit me sortir le même texte, en UTF8.

J'ai peur du comportement de guess_encoding : parfois il m'affiche des messages d'erreur "unknow encoding" sur certaines lignes (on dirait quil fait un traitement par ligne)
J'ai peur aussi que le iconv ait un comportement innatendu dans certains cas et ne transforme pas le texte (renvoie texte vide) ou le fasse mal


Cette façon de faire me parait mauvaise
Qu'en dites-vous?

Detecter le charset

6 réponses

Discussions similaires

Newsletters