Tokenisation des mot
adamsjilal
Messages postés
46
Date d'inscription
Statut
Membre
Dernière intervention
-
adamsjilal Messages postés 46 Date d'inscription Statut Membre Dernière intervention -
adamsjilal Messages postés 46 Date d'inscription Statut Membre Dernière intervention -
Bonjour,
je voulait mettre en place une methode qui permet de decouper des phrases a partire d'une fichier lus par programme, pour cela la methode recoit en parametre une fichier et le lu et decoupe les phrases en mot. le probleme c'est ma methode me fait perdre certains caractere que j'aurais dans la suite. les caracteres perdus sont le virgules, points-virgules et l'apostrophe. mais je veut pas cela, je veux meme avoir ces caracteres, alors ceux que je veux c'est que les information lu et tokeniser y compris le caratere, la meme methode StringTokenizer elimine les informations passé en parametre et tokenise selon ces carateres.
voici la methode
le resultat que ca donne:
j
achète
à
bas
prix
tout
compte
fait
c
est
bien
moins
cher
voila le resultat ca donne ca, mais les carateres tel que ,;!! sont perdu mais je veux pas, si quelqu'un a compris mon probleme essayer de m'aider SVP. MERCI D AVANCE
je voulait mettre en place une methode qui permet de decouper des phrases a partire d'une fichier lus par programme, pour cela la methode recoit en parametre une fichier et le lu et decoupe les phrases en mot. le probleme c'est ma methode me fait perdre certains caractere que j'aurais dans la suite. les caracteres perdus sont le virgules, points-virgules et l'apostrophe. mais je veut pas cela, je veux meme avoir ces caracteres, alors ceux que je veux c'est que les information lu et tokeniser y compris le caratere, la meme methode StringTokenizer elimine les informations passé en parametre et tokenise selon ces carateres.
voici la methode
public static void lectureCorpus(final File file) throws IOException { fr = new FileReader(file); br = new BufferedReader(fr); String ligne = br.readLine(); // comme il ya pas grand nombre de ligne lire, on a pas besoin la boucle // while System.out.println("-----------------lecture du fichier exemple.fr ou le corpus---------------------------"); System.out.println(ligne); System.out.println("-----------apres la tokenisation----------"); // tokenisation du corpus StringTokenizer tk = new StringTokenizer(ligne, ",'!! "); // List<String> listString = new ArrayList<String>(); while (tk.hasMoreTokens()) { //listString.add(tk.nextToken()); System.out.println(tk.nextToken()); } System.out.println("la taille de la liste de tokenisé " + listString.size()); //String n = traduction(listString); // fermeture du fichier closeFichier(); }
le resultat que ca donne:
j
achète
à
bas
prix
tout
compte
fait
c
est
bien
moins
cher
voila le resultat ca donne ca, mais les carateres tel que ,;!! sont perdu mais je veux pas, si quelqu'un a compris mon probleme essayer de m'aider SVP. MERCI D AVANCE
A voir également:
- Tokenisation des mot
- Trousseau mot de passe iphone - Guide
- Mot de passe - Guide
- Mot de passe administrateur - Guide
- Mot de passe bios perdu - Guide
- Voir mot de passe wifi android - Guide
1 réponse
Bonjour,
StringTokenizer est dépréciée depuis Java 4 (sorti en 2002 !!) et ne devrait plus être utilisée, à la place il faut considérer les expressions régulières.
StringTokenizer est dépréciée depuis Java 4 (sorti en 2002 !!) et ne devrait plus être utilisée, à la place il faut considérer les expressions régulières.
StringTokenizer is a legacy class that is retained for compatibility reasons although its use is discouraged in new code. It is recommended that anyone seeking this functionality use the split method of String or the java.util.regex package instead.
https://cyberzoide.developpez.com/tutoriels/java/regex/
la fonction:
le resultat
j'achète
à
bas
prix
tout
compte
fait,
c'est
bien
moins
cher!!
mais le probleme avec ce methode je parviendrait pas faire la traduction a la suite, vu que les caractere et les mots sont collée les uns des autres, et la recherche ne se ferra pas tant que les caracteres sont collés.