[java] code ascii d'un char mais en unicode 8 Résolu/Fermé

Question

Bonjour,

Je cherche pour décompresser une chaine codée en lzw, à obtenir le code ascii d'un caractère, pour le moment si je fait : 

public static int toASCII(char lettre) 
	{ 
		return (int)lettre; 
	} 

il me retourne la valeur unicode sur 16 bits et pas 8 bits par exemple Ä renvoi 65533 et pas 257 ...

évidement la chaine étant encodé par différent language (les clients varies) il faut que je puisse travailler en UTF 8

J'ai essayé de convertir ma string dès le départ avec : 

   byte[] utf8Bytes = txt2decode.getBytes("UTF8");
   txt2decode = new String(utf8Bytes, "UTF8");

mais ça n'a rien changé ... pour infos ma boucle à cette tête :
    String[] splitStr = txt2decode.split("") ;
    for (i = 0 ;  i < length ; i++) {
			String current = splitStr [i] ;
			int code = toASCII(txt2decode.charAt(i));

                       .....

   }


Merci d'avance.

Stéphane

in2ni · Answer

Il me semble que java travaille en interne avec des caractères UTF-16. Donc, le code d'un caractère d'une chaîne java est renvoyé en UTF-16.

C'est une bonne idée de travailler à partir d'un tableau d'octets grâce à getBytes ("UTF8");
Mais il ne faut pas reconvertir ce tableau en chaîne, car java semble alors les retraduire implicitement en UTF16

As-tu essayé tout simplement :

int length = txt2decode.length();
byte[] utf8Bytes = txt2decode.getBytes ("UTF8");
for (int i = 0; i < length; i++)
{
int code = utf8Bytes[i];
...
}

sbouli · Answer

bonjour,

bizarrement, il me renvoi  -61 pour le Ä .... mais on progresse  :)

Merci

in2ni · Answer

Tu as un tableau de bytes. Les bytes java sont codés de -128 à 128, je crois.
Il faut peut-être les convertir avec l'opération & 0xff pour les rétablir dans la tranche entre 0..255

Essaie ça et dis-moi :


int length = txt2decode.length(); 
byte[] utf8Bytes = txt2decode.getBytes ("UTF8"); 
for (int i = 0; i < length; i++) 
{ 
int code = utf8Bytes[i] & 0xff; 
... 
}

in2ni · Answer

Tu as un tableau de bytes. Les bytes java sont codés de -128 à 128, je crois.
Il faut peut-être les convertir avec l'opération & 0xff pour les rétablir dans la tranche entre 0..255

Essaie ça et dis-moi :


int length = txt2decode.length(); 
byte[] utf8Bytes = txt2decode.getBytes ("UTF8"); 
for (int i = 0; i < length; i++) 
{ 
int code = utf8Bytes[i] & 0xff; 
... 
}

in2ni · Answer

Une petite fonction utile qui imprime les octets d'une chaîne en fonction de l'encodage choisi..
NB ici la conversion des byte java -128..127 en 0..255 (int) se fait implicitement par la lecture avec read() dans un flux ByteArrayInputStream.

import java.io.*;
import java.util.*;

public class StringEncodings
{
    public static void printBytes (String s, String charsetName) throws UnsupportedEncodingException
    {
        int length = s.length ();
        
        byte[] bytes = s.getBytes (charsetName);
        ByteArrayInputStream in = new ByteArrayInputStream (bytes);
        
        int byte255;
        while ((byte255 = in.read ()) != -1)
        {
            System.out.print (byte255 + " ");
        }
        System.out.println();
    }
    
    public static void main (String[] args) throws UnsupportedEncodingException
    {
        printBytes ("ÂÄÔÖÎÛÜ", "ISO-8859-1"); // encodage occidental
        printBytes ("ÂÄÔÖÎÛÜ", "UTF-16");
        printBytes ("ÂÄÔÖÎÛÜ", "UTF-8");
    }
    
}

sbouli · Answer

Hello, En fait je me suis mal expliqué ... je cherche à décompresser des strings compressées en utilisant l'algo de compression LZW. Pour le moment la compression à lieu en FLASH Action Script 3. Or lors de la décompression en flash de la même chaine, lorsque j'arrive sur un caractère type ã (ou Ä) j'obtiens avec la fonction var code:int = txt2decode.charCodeAt(i) ; des codes > 255 c'est même tout l'intéret de l'algo. Lorsqu'il trouve des séquences identique, il leur attribue une place dans le dico et met dans la chaine l'index de cette séquence dans le dico. par exemple " login login 255 0 toto " qui devient quelque chose comme (je suis pas sûr que le debugger + le copier/coller préserve les caractères ...) : āmd>login255ēĪĬĮİĲćĩīsitĲ0ķĿŁļĘpseudo>toőēŊŌŎĆģĚ>""" Merci pour ton aide !!

sbouli · Answer

finalement, c'est bon, ce code est bon, (au détail du dernier caractère près), le pb venait essentiellement du socket qui modifiait la string à la réception, j'ai tout passé en UTF-8 et ça tourne nickel !!!

Merci encore pour votre aide, ça m'a énormément fait avancer !!

Stéphane