tokenisation des mot

Question

Bonjour,
je voulait mettre en place une methode qui permet de decouper des phrases a partire d'une fichier lus par programme, pour cela la methode recoit en parametre une fichier et le lu et decoupe les phrases en mot. le probleme c'est ma methode me fait perdre certains caractere que j'aurais dans la suite. les caracteres perdus sont le virgules, points-virgules et l'apostrophe. mais je veut pas cela, je veux meme avoir ces caracteres, alors ceux que je veux c'est que les information lu et tokeniser y compris le caratere, la meme methode StringTokenizer elimine les informations passé en parametre et tokenise selon ces carateres.
voici la methode

public static void lectureCorpus(final File file) throws IOException {
		fr = new FileReader(file);
		br = new BufferedReader(fr);
		String ligne = br.readLine();

		// comme il ya pas grand nombre de ligne lire, on a pas besoin la boucle
		// while
		System.out.println("-----------------lecture du fichier exemple.fr ou le corpus---------------------------");
		System.out.println(ligne);
		System.out.println("-----------apres la tokenisation----------");
		// tokenisation du corpus
		StringTokenizer tk = new StringTokenizer(ligne, ",'!! ");

		//
		List<String> listString = new ArrayList<String>();
		while (tk.hasMoreTokens()) {
			//listString.add(tk.nextToken());
                         System.out.println(tk.nextToken());
		}
		System.out.println("la taille de la liste de tokenisé " + listString.size());
		//String n = traduction(listString);

		// fermeture du fichier
		closeFichier();

	}

le resultat que ca donne:
j
achète
à
bas
prix
tout
compte
fait
c
est
bien
moins
cher
voila le resultat ca donne ca, mais les carateres tel que ,;!! sont perdu mais je veux pas, si quelqu'un a compris mon probleme essayer de m'aider SVP. MERCI D AVANCE

KX · Answer

Bonjour,

StringTokenizer est dépréciée depuis Java 4 (sorti en 2002 !!) et ne devrait plus être utilisée, à la place il faut considérer les expressions régulières.
StringTokenizer is a legacy class that is retained for compatibility reasons although its use is discouraged in new code. It is recommended that anyone seeking this functionality use the split method of String or the java.util.regex package instead.

Tokenisation des mot

1 réponse

Discussions similaires

Newsletters