qqes questions a propos de pages web

Question

Bonjour,
j'essaie d'ecrire une sorte de crawler simplifie pour pouvoir sauvegarder une copie hors ligne d'un site web chez moi...
le tout etant encore experimental, j'ai rencontre ces qqes difficultes:

- pages web dynamique, comment savoir si une page est dynamique ou non, est ce qu'il y a un caractere special dans le URL ou qqe chose du genre?
- liens relatifs, comment savoir? suffit-il de verifier le nom du domaine?
- frames, comment les traiter comme de simples pages html? les telecharger separement?
- liens externes, comment eviter? suffit-il de verifier le nom du domaine?
- robots.txt , comment verifier ce fichier sur un site et comment interpreter l'information?
- cookies, authentification, serveur securise, comment gerer? j'utilise python mais je suis pas sur qu'il a toutes les fonctions necessaires

ceci dit, je rappelle que ce que je fait est un robot assez simplifie...
faites moi part aussi de qqe autre probleme qui m'aurait echappe, merci

ROM88 · Answer

ah oui j'ai oublie aussi, comment faire pour sauvegarder les images chez moi?

Qqes questions a propos de pages web

1 réponse

Discussions similaires

Newsletters