Qqes questions a propos de pages web

ROM88 Messages postés 57 Statut Membre -  
ROM88 Messages postés 57 Statut Membre -
Bonjour,
j'essaie d'ecrire une sorte de crawler simplifie pour pouvoir sauvegarder une copie hors ligne d'un site web chez moi...
le tout etant encore experimental, j'ai rencontre ces qqes difficultes:

- pages web dynamique, comment savoir si une page est dynamique ou non, est ce qu'il y a un caractere special dans le URL ou qqe chose du genre?
- liens relatifs, comment savoir? suffit-il de verifier le nom du domaine?
- frames, comment les traiter comme de simples pages html? les telecharger separement?
- liens externes, comment eviter? suffit-il de verifier le nom du domaine?
- robots.txt , comment verifier ce fichier sur un site et comment interpreter l'information?
- cookies, authentification, serveur securise, comment gerer? j'utilise python mais je suis pas sur qu'il a toutes les fonctions necessaires

ceci dit, je rappelle que ce que je fait est un robot assez simplifie...
faites moi part aussi de qqe autre probleme qui m'aurait echappe, merci
A voir également:

1 réponse

ROM88 Messages postés 57 Statut Membre 1
 
ah oui j'ai oublie aussi, comment faire pour sauvegarder les images chez moi?
0