Liste stop-words

Fermé
karine - 10 mai 2005 à 15:44
 Xavier - 6 déc. 2006 à 12:33
Bonjour,

j'ai un texte d'une part et un fichier contenant une liste de mots interdits d'autre part (liste stop-words).

Comment je peux faire pour supprimer ces mots interdits du texte initial ?


Merci !
A voir également:

8 réponses

sam3000 Messages postés 1225 Date d'inscription mercredi 22 décembre 2004 Statut Membre Dernière intervention 13 juin 2005 144
10 mai 2005 à 15:50
salut karine,
tu commence par créer un dictionnaire contenant les mots interdis
tu peut utiliser l'algorithme de ton post précedent pour trouver tous les mots, puis pour chaque mot trouvé, tu teste si ce mot appartient au dictionnaire des mots interdis ou pas, si ça n'appartient pas tu continu le traitement du mot (test d'existantance ou incrementation du nombre d'occurences)
0
Merci sam3000,

je vais essayer ça, mais ça ralentit pas trop si je dois lire tout le fichier de mots interdits à chaque fois ?
0
sam3000 Messages postés 1225 Date d'inscription mercredi 22 décembre 2004 Statut Membre Dernière intervention 13 juin 2005 144
10 mai 2005 à 15:56
justement tu lit le fichier une seule fois au debut de ton programme et tu met tous les mots dans un dictionnaire (en memoire)
0
Je vois pas trop ...

Tu veux dire que je mets ces mots dans une liste, un tableau , ou quelque chose d'autre?
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
sam3000 Messages postés 1225 Date d'inscription mercredi 22 décembre 2004 Statut Membre Dernière intervention 13 juin 2005 144
10 mai 2005 à 16:02
oui
et tu fais a chaque fois la comparaison avec les valeurs de cette liste
0
Merci !!

Je me lance alors ...
0
sam3000 Messages postés 1225 Date d'inscription mercredi 22 décembre 2004 Statut Membre Dernière intervention 13 juin 2005 144
10 mai 2005 à 16:05
de rien, a ton service pour d'autres questions
0
Bonjour, je voulais rebondir sur ce sujet pour savoir où je pourrai éventuellement trouver un dictionnaire de mots interdits !

Merci d'avance.

Xavier
0