Qqes questions a propos de pages web

ROM88 Messages postés 57 Date d'inscription   Statut Membre -  
ROM88 Messages postés 57 Date d'inscription   Statut Membre -
Bonjour,
j'essaie d'ecrire une sorte de crawler simplifie pour pouvoir sauvegarder une copie hors ligne d'un site web chez moi...
le tout etant encore experimental, j'ai rencontre ces qqes difficultes:

- pages web dynamique, comment savoir si une page est dynamique ou non, est ce qu'il y a un caractere special dans le URL ou qqe chose du genre?
- liens relatifs, comment savoir? suffit-il de verifier le nom du domaine?
- frames, comment les traiter comme de simples pages html? les telecharger separement?
- liens externes, comment eviter? suffit-il de verifier le nom du domaine?
- robots.txt , comment verifier ce fichier sur un site et comment interpreter l'information?
- cookies, authentification, serveur securise, comment gerer? j'utilise python mais je suis pas sur qu'il a toutes les fonctions necessaires

ceci dit, je rappelle que ce que je fait est un robot assez simplifie...
faites moi part aussi de qqe autre probleme qui m'aurait echappe, merci
Configuration: Windows XP
Firefox 2.0.0.14
A voir également:

1 réponse

ROM88 Messages postés 57 Date d'inscription   Statut Membre 1
 
ah oui j'ai oublie aussi, comment faire pour sauvegarder les images chez moi?
0