types documents récupérés sur le web

Question

Bonjour,

je dois développer un parser en java destiné à lire des documents issus du web.
Par conséquent pouvez-vous m'indiquer quels sont les types de documents qui peuvent être retirés du web.

Merci

tafiscobar · Answer

n'impote lequel qui existe - fichier formate ou fichier texte tout court.tafiscobar

biben · Answer

Sois plus précis ça m'aidera. c'est par exemple est-ce que tu peux récupérer le pdf directement ?Quels sont les autres types pour lesquels c'est possible ?Merci bien

tafiscobar · Answer

par exemple lorsque sur le site ccm, il ya un fichier pdf ou doc a lire, alors si je veux l'avoir sur mon ordi, il m suffit juste de le telecharger et le systeme se chargera de copier le ficier depuis le serveur sur mon ordi, et de ce fait n'importe quel format de texte peut etre recupere du web, d'apres moi, et donc je ne pense pas que tu es un moyen formel de dire si tel fichier est un fichier pdf ou autre, l'extension pouvant etre trompeuse: pat exemple jer p bien m'etre sur un site un fichier texte avec coe extension .pdf. Peut etre qu'il existe une bibliotheque en java permettant de deviner la plupart des types de fichier, je sais q sous unix, il existe la cde - j'ai oublie son nom - qui devine pour la plupart le type de fichier.
Mais ds ts les cas, je pense q java permet de lire des fichiers binaires et de ce fait tu pourras lire n'importe quel document lisible du web.
Si je n'ai pas compris ton bleme, excuse-moi.
tafiscobar

Types documents récupérés sur le web

3 réponses

Discussions similaires

Newsletters