C table de hachage de mots

Fermé
stroumpf - 15 sept. 2009 à 09:42
 stroumpf - 15 sept. 2009 à 16:19
Bonjour à tous,
J'ai un projet à faire qui consiste en 1er lieu à lire un fichier texte.
Je veux extraire les mots et les couple de mots de chaque ligne composant le texte. Mon prof ma proposé de les stocker dans une table de hachage, car le fichier texte est super grand

Je m'explique un peu plus:
J'ai 2 fichier à lire : fichier en francais et fichier en anglais (chaque fichier est la traduction de l'autre)
chaqye fichier est sous forme de ligne
Par exemple :
Bonjour et Good morning
on veut afficher des relation sous forme: 1mot->1mot , 1mot->2mots, 2mots->1mot, 2mots->2mots
donc on aura :
bonjour_>good
bonjour->morning
bonjour->good morning
sachant bien que je veux sttocker por chaque mot sa freqyunce d'apparition dans le texte
Voila
MErci ,
A voir également:

1 réponse

Bonjour à tous,
J'ai un projet commencer et j'aime bien choisir convenablement mes structure de données dès le début pour éviter de refaire tout le travail apres
C'est pour cela je m'adresse à vous.
En fait j'ai 2 fichiers texte à lire : 1 fichier en francais qui contient des phrases en francais, et un fichier en anglais qui contient les traduction des phrases en anglais.
donc pour chaque phrase en anglais et en francais y va avoir un traitement à faire
par exemple : j'ai ces 2 phrase :
bonjour les amis good morning the friends
voila les traitements :
x->y telque x et y peuvent etre 1mot ou plus
donc on affiche
bonjour les ->good morning
bonjour les ->morning the
bonjour les -> the friends
et pour chaque regle generée on calcule sa probabilté = prob(x,y)log(p(y)p(x,y).


voilà
sachantque les 2 fichiers ont une taille gigantesque >1gio!
merci à vous tous
-1