Toupper avec lettres accentuées Résolu

Question

Bonjour, j'aurais voulu savoir comment faire pour mettre en majuscules avec accents des lettres minuscules avec accents, en utilisant des fonctions de base en C genre toupper() ou towupper() ?
En gros je voudrais à partir de cette lettre : 'é' arriver à 'É' 

Merci d'avance

ellana29460 · Answer

Il n'y a pas de methode rapide.
tu peux faire une fonction pour ca avec un enorme

void mon_toupper(char[] mot, int tailleDuMot)
{
    char lettre;
    for(lettre=0;lettre<tailleDuMot; lettre ++)
    {
        switch(mot[lettre])
        {
        case 'à':
            mot[lettre] = 'Á';
            break;
        case '...':
            mot[lettre] = '...';
            break;
        }
    }
}

steph31 · Answer

Merci pour ta réponse, ça fait un peu bourrin en effet :p!
Je vais voir ce que je peux faire!

fiddy · Answer

Bonjour,

Effectivement, il faut que tu te créées la fonction toi-même.
Mais tu arrives sur un sujet pas évident : l'encodage.
Dans ton éditeur, les caractères sont encodées en quoi ?
Dans ta console, en quoi c'est encodé ?
 
Cdlt,

steph31 · Answer

La locale de la console est "en_US.UTF-8", et je pense que l'éditeur (KDevelop) est également en UTF8.
J'essaye d'utiliser la librairie ICU, mais visiblement je suis confronté au même soucis, ça convertit très bien les caractères "normaux", et dès qu'il y a un accent,  la lettre n'est pas convertie...

fiddy · Answer

En UTF8, les caractères dont tu parles (avec caractères) sont stockés sur 2 bytes. Il faut donc passer par les wide char (wchar_t).
Tu utilises quelle version de C ? C89/90 ou C99 ?

Cdlt,

steph31 · Answer

Je ne sais pas quelle est la version, dans le makefile j'ai rien précisé de particulier donc ça doit être la valeur par défaut.

En effet j'ai remarqué que ces lettres étaient sur plusieurs octets (genre le 'é' c'est C3A9 en héxa), mais après j'ai pas très bien compris le principe des wide char, hier il me semble que j'ai essayé, sans succès; je vais retenter au cas ou j'aurais loupé un truc !

fiddy · Answer

Tu es sous GNU/Linux, j'imagine donc que tu compiles avec gcc.
Lorsque tu compiles, utilise -std=c99 (pour compiler en C99). Ainsi tu pourras utiliser les caractères étendus.
Teste :

wchar_t test[]=L"aééa";
wprintf(L"Avant conversion : %ls
",test);
if(test[1]==L'é') {
     test[1]=L'É';
}
wprintf(L"Après conversion : %ls
",test);

N'oublie pas de rajouter wchar.h (#include).

Google is your friend

steph31 · Answer

J'ai essayé ton bout de code, visiblement rien ne s'affiche. Après je ne peux pas utiliser "-std=c99" car je développe sur une application de l'entreprise où je travaille, et malheureusement je ne peux pas faire des choses comme ça :D.
C'est pour ça que je suis coincé!
Le fait que rien ne s'affiche est lié au fait que std=c99 ne soit pas spécifié ?

steph31 · Answer

Bon en fait y'avais des warnings (mélangés à d'autres qui non rien à voir c'est pour ça je les avaient pas vu)
Bon du coup j'arrive à avoir quelque chose en mettant des printf au lieu des wprintf :

wchar_t test[]=L"aééa";

printf("(printf) Avant conversion : [%ls]
",test);
    wprintf(L"(wprintf) Avant conversion : [%ls]
",test);
    if(test[1]==L'é') {
        test[1]=L'É';
    }
    printf("(printf) Après conversion : [%ls]
",test);
    wprintf(L"(wprintf) Après conversion : [%ls]
",test);
    fflush(stdout);

Résultat : 
(printf) Avant conversion : [aééa]
(printf) Après conversion : [aÉéa]

(je ne sais pas comment on met un bloc de code^^)

steph31 · Answer

(Le fflush n'est pas superflu, car il y a un serveur de message qui tourne en parallèle et qui envoie des messages à l'écran, sans ce flush, les printf apparaissent à la fin de l'exécution :p ).

Donc en fait après réflexion ça peut le faire, car en fait je dois reproduire le comportement d'une fonction de la database DB2, et visiblement DB2 effectue un toupper() uniquement sur les caractères ascii étendus classique (pas les caractères sur 3 octets on dirait). Maintenant faut que je trouve une façon propre de coder tout ça et ça devrait le faire.

En tout cas merci beaucoup de ton aide !

fiddy · Answer

(Le fflush n'est pas superflu, car il y a un serveur de message qui tourne en parallèle et qui envoie des messages à l'écran, sans ce flush, les printf apparaissent à la fin de l'exécution :p ).  
Bizarre ce que tu me dis. S'il y a un '
' à la fin de la chaîne (ce qui est le cas ici) que tu affiches, cela fait un flush explicite (c'est la norme qui le dit). Après effectivement, si tu affiches une chaîne sans '
', il faudra mettre un fflush(stdout).

 les caractères ascii étendus classique (pas les caractères sur 3 octets on dirait)
Si tu parles de toupper(), il fait la conversion sur les caractères classiques (1 byte).
Mais, moi je te parlais de towupper() (et non c'est pas une faute de frappe le w ;-)). Cette fonction te permet de convertir les accents en lettre majuscule.
Pour l'implémentation, il te suffit de faire une boucle for sur tous les caractères et utiliser towupper(). Et c'est tout. 2 lignes ;-)

steph31 · Answer

Ben oué je sais pas ça dépend des endroits où sont placés les printf, en tout cas c'est sur que si je fais pas un fflush en dur, ils apparaissent à la fin (c'est peut être lié à la config du pc ou du compilateur je ne sais pas!).

Non je parlais pas de la fonction toupper() C, mais d'une fonction de DB2 qui fait un équivalent à toupper()
En gros pour résumer ça sera beaucoup plus simple à comprendre :

db2 "select upper('é'), hex(upper('é')), hex('é') from temp"

va donner comme résultat :
É  C389 C3A9

Et donc je dois via un programme en C, obtenir le même résultat que DB2.

Donc ce que je disais, et qui n'était certainement pas clair^^, c'est que DB2 convertit uniquement les caractères ascii étendus, mais si je fais un test sur des caractères qui sont sur 3 octets par exemple :
db2 "select upper('€'), hex(upper('€')), hex('€') from temp"
avec comme résultat : 
€   E282AC E282AC

steph31 · Answer

Je viens de comprendre ce que tu disais avec towupper(), je viens de tester ce code :

int i=0;
  wchar_t str[] = L"Tést String.
";
  wchar_t c;
  while (str[i])
  {
    c = str[i];
    putwchar (towupper(c));
    i++;
  }


et j'obtiens :
T?ST STRING.

Tu saurais par hasard comment voir le code hexa de chaque caractère au moment du print?

steph31 · Answer

Bon en fait j'ai trouvé c'est bon pour afficher la valeur

steph31 · Answer

Je poste une solution à mon problème, il doit y'en avoir des dizaines, mais celle-ci me convient parfaitement, je la poste dans le cas où ça puisse servir à quelqu'un.

je ne vais pas mettre de code mais juste le principe !
Pour info j'utilise la librairie ICU.

Donc au départ on a une chaine de caractère, qui peut être en UTF-8, UTF-16, ISO etc, peut importe la locale utilisée.
Ensuite on convertit cette chaine en UTF-32 (avec un convertisseur ICU) en prenant en compte l'endianness du système : c'est là où était le piège dans mon cas, je convertissais en big endian sur une machine little endian, donc grosse prise de tête lol. Du coup la chaîne convertie en UTF-32 est maintenant au format wide char. On peut donc utiliser les fonctions C classiques (towupper() par exemple), mais j'ai préféré continuer avec ICU, vu que j'avais commencé avec !

Après on effectue un UPPER grâce à la fonction ICU u_strToUpper() (ou alors avec la fonction C towupper(), caractère par caractère).

Enfin on effectue une nouvelle conversion avec ICU vers la locale d'origine.

Voila, j'espère ne pas avoir dis de connerie, sinon reprenez moi :)

Toupper avec lettres accentuées

15 réponses

Discussions similaires

Newsletters