Compter nombre de mots d'un fichier html

Fermé
Emyy08 Messages postés 2 Date d'inscription dimanche 2 novembre 2014 Statut Membre Dernière intervention 2 novembre 2014 - 2 nov. 2014 à 12:52
KX Messages postés 16733 Date d'inscription samedi 31 mai 2008 Statut Modérateur Dernière intervention 31 janvier 2024 - 2 nov. 2014 à 14:29
Bonjour :D

Je suis étudiante en informatique et je dois créer un programme Java qui compte le nombre de mots contenu dans un fichier HTML.

Les contraintes étant les suivantes :

- Le programme doit stocker les lignes du fichier dans une LinkedList;

- Le programme doit compter le nombre de mots de chaque "bloc" du fichier et instancier un objet de type Block qui contiendra au moins un attribut Bloc superBloc et un attribut nom correspondant au nom de la balise (voir exemple plus bas :) );

- Le fichier ne possède pas d'en-tête et commence donc à la balise <body> puis fini a </body>;

- Les balises ne doivent évidemment pas être compter. Il faut donc exclure les balise orpheline (<br/>, <img/>, ...)



Exemple :

<body>

  Coucou

  <p>

    Ceci est <em>un <b>exemple</b> pour ce programme</em>

  </p>

</body>


Ici :

- <body> ne possède pas de superBloc et compte 8 mots : "Coucou Ceci est un exemple pour ce programme" ;

- <p> possède <body> comme superBloc et compte 7 mot;

- <em> possède <p> comme superBloc et compte 5 mots;

- <b> possède <em> comme superBloc et compte 1 mot.



La lecture du fichier HTML et la récupération des lignes dans une LinkedList ainsi que la fonction pour compter les mots sont fourni (je ne peux malheureusement pas vous les fournir puisque le code nous a été donné par notre prof qui est contre la diffusion de celui-ci :/ ).



Je requiert donc votre aide pour le reste du TP sur lequel je bloque complètement ! :(
A voir également:

1 réponse

KX Messages postés 16733 Date d'inscription samedi 31 mai 2008 Statut Modérateur Dernière intervention 31 janvier 2024 3 015
2 nov. 2014 à 13:00
Bonjour,

"aide pour le reste du TP"
Le reste, quel reste ? Tu as commencé quelque chose ? Quoi ?

Remarque : un TP c'est fait pour pratiquer, pas pour être fait par quelqu'un d'autre.
0
Emyy08 Messages postés 2 Date d'inscription dimanche 2 novembre 2014 Statut Membre Dernière intervention 2 novembre 2014
2 nov. 2014 à 14:18
Tout d'abord, merci de m'avoir répondu ^_^

Quand je parle du "reste" du TP, je parle de la partie "analyse" des lignes et récupération des Block.
Je ne vois pas comment je peux faire pour lire tout le texte et réussir a créer et stocker tout les Block comme il faut.
J'ai d'abord pensé à une méthode récursive qui selon moi serait la meilleur option mais j'ai toujours du mal à "créer" ce genre de méthode.
Et hormis une méthode récursif que je n'arrive pas à définir, je ne vois pas trop comment cela est possible en itératif :/
0
KX Messages postés 16733 Date d'inscription samedi 31 mai 2008 Statut Modérateur Dernière intervention 31 janvier 2024 3 015
2 nov. 2014 à 14:29
La partie itérative c'est la lecture du texte, tu lis le fichier ligne par ligne, stockée dans ta liste comme imposé, les mots les uns à la suite des autres pour repérer l'ordre des balises.
Mais une fois que tu as à identifié les balises tu te retrouves avec un arbre de hiérarchisation des balises, et le traitement d'un arbre c'est récursif.
0