Types documents récupérés sur le web

Fermé
biben - 10 juin 2003 à 17:45
 biben - 10 juin 2003 à 21:47
Bonjour,

je dois développer un parser en java destiné à lire des documents issus du web.
Par conséquent pouvez-vous m'indiquer quels sont les types de documents qui peuvent être retirés du web.

Merci
A voir également:

3 réponses

tafiscobar Messages postés 1277 Date d'inscription jeudi 7 décembre 2000 Statut Contributeur Dernière intervention 26 février 2009 177
10 juin 2003 à 18:02
n'impote lequel qui existe - fichier formate ou fichier texte tout court.

tafiscobar
0
Sois plus précis ça m'aidera. c'est par exemple est-ce que tu peux récupérer le pdf directement ?
Quels sont les autres types pour lesquels c'est possible ?

Merci bien
0
tafiscobar Messages postés 1277 Date d'inscription jeudi 7 décembre 2000 Statut Contributeur Dernière intervention 26 février 2009 177
10 juin 2003 à 21:31
par exemple lorsque sur le site ccm, il ya un fichier pdf ou doc a lire, alors si je veux l'avoir sur mon ordi, il m suffit juste de le telecharger et le systeme se chargera de copier le ficier depuis le serveur sur mon ordi, et de ce fait n'importe quel format de texte peut etre recupere du web, d'apres moi, et donc je ne pense pas que tu es un moyen formel de dire si tel fichier est un fichier pdf ou autre, l'extension pouvant etre trompeuse: pat exemple jer p bien m'etre sur un site un fichier texte avec coe extension .pdf. Peut etre qu'il existe une bibliotheque en java permettant de deviner la plupart des types de fichier, je sais q sous unix, il existe la cde - j'ai oublie son nom - qui devine pour la plupart le type de fichier.
Mais ds ts les cas, je pense q java permet de lire des fichiers binaires et de ce fait tu pourras lire n'importe quel document lisible du web.
Si je n'ai pas compris ton bleme, excuse-moi.
tafiscobar
0
Merci beaucoup !
0