Aspirer des fichiers spécifiques avec httrack

[Résolu/Fermé]
Signaler
-
Messages postés
1221
Date d'inscription
jeudi 4 septembre 2008
Statut
Membre
Dernière intervention
2 janvier 2014
-
Bonjour,

J'ai téléchargé un logiciel d'aspiration de site internet appelé httrack. Par contre je voudrai uniquement aspirer certaines pages du site mais en précisant, dans l'onglet option, le contenu (qui est toujours le même pour les pages que je veux aspirer) des pages. cependant, je me retrouve avec toutes les pages du site internet.

COmment pourrai je rectifier cela? Y a t il d'autres choses à modifier dans l'onglet option et que je n'aurai pas fait?

Merci pour toutes vos réponses!!!!!^^

Besma

4 réponses

Messages postés
3587
Date d'inscription
mercredi 20 septembre 2006
Statut
Membre
Dernière intervention
1 juillet 2021
843
Je ne sais pas si tu peux récupérer les noms des fichiers que tu veux décharger.
Il m'arrive de partir du code source des pages (affiché avec le navigateur), de créer la liste des fichiers avec un éditeur quelconque pour ensuite la définir dans WinHttrack (de tête, ce doit être dans une boîte Adresse Web avec l'option Télécharger des fichiers spécifiques).
Sinon, comme l'indique okuni, tu peux définir la profondeur maximale, dans l'onglet limite.
>>> J'ai un doute, soudain, tu parles de Httrack, c'est une version command line, pourquoi n'utilises-tu pas WinHttrack ?
1
Merci

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

CCM 65492 internautes nous ont dit merci ce mois-ci

A je ne connait pas WinHttrack...c'est plus simple à utiliser?? Si oui il faut le télécharger?

Merci pour ton aide
Messages postés
3587
Date d'inscription
mercredi 20 septembre 2006
Statut
Membre
Dernière intervention
1 juillet 2021
843
Dans mon installation (qui date pas mal) les deux programmes sont installés dans le même dossier, ils ont donc été chargés ensemble.
Pour tout dire, je n'avais jamais vu que httack.exe existait.
Tout ce que je peux te conseiller c'est de télécharger Winhttrack et de l'installer.
Pas compliqué à utiliser, son paramétrage se comprend tout seul.
Messages postés
1221
Date d'inscription
jeudi 4 septembre 2008
Statut
Membre
Dernière intervention
2 janvier 2014
125
ha je ne savais même pas qu'il y avait 2 versions différentes. je parle de Winhttrack
le mieux pour bien aspirer, c'est de passer en revue toutes les options et entre autre le nombre de liens de profondeur. dans ton cas, tu ne dois prend qu'un lien de profondeur (ou 2 car je ne sais plus si le premier que tu donne en référence compte comme lien de profondeur)
ensuite, dans le filtre, tu indique que tu veux que des fichiers .doc, .html ou autre, donc :
+*.doc+*.html

je pense que ça devrait fonctionner :p
Messages postés
1219
Date d'inscription
vendredi 29 décembre 2006
Statut
Membre
Dernière intervention
15 mars 2016
186
Messages postés
23161
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
24 juillet 2021
2 246
rien n'a voir avec le piratage !!!
cherche un peu dans les astuces ou téléchargements, il y a une foule d'aspirateurs de sites ...
mais que valent-ils finalement dans la pratique, surtout sur des sites sécurisés ???
Merci pour l'information Nico mais j'ai pris mes précautions avant de faire quoi que se soit^^.
L'aspirateur de site est autorisé dans le cas ou ce que qui est aspiré n'est pas utilisé à des fins commerciales.... Dans mon cas, le site aspiré fournit des documents que l'on peut consulter, télécharger légalement sauf qui doit se faire document par document et quand il y en a plus de 1500....c'est un peu long de les faire un par un.

merci encore pour l'info, c'est bon se savoir quand meme
Messages postés
3587
Date d'inscription
mercredi 20 septembre 2006
Statut
Membre
Dernière intervention
1 juillet 2021
843
Pirater ce qui est accessible librement ? Quelle drôle d'idée.
Messages postés
8207
Date d'inscription
lundi 31 janvier 2011
Statut
Contributeur
Dernière intervention
28 juillet 2021
1 925
Bonjour à tous,

Pour avoir utilisé httrack, je peux vous dire que cet outil n'est pas plus destiné à pirater que de le fait de faire une photo d'écran ou d'avoir recours à une session ftp. Ce qui est interdit, c'est de les réutiliser commercialement ou sur un site. Les aspirateurs de Web servaient beaucoup plus à l'époque des connexions lentes RTC. Ils permettent de récupérer un site entier ou un type de documents en quelques clics. Il est d'ailleurs possible de récupérer les images d'un site dans le dossier image de chaque page html, ce qui n'autorise pas plus à les utiliser. Faisons donc le crédit à Besdu06 de ne vouloir que récupérer des documents sans avoir à parcourir et sauvegarder des centaines de pages. C'est le droit de tout un chacun d'archiver et de consulter hors-ligne des documents. Le net est fait pour cela. Il y a bien d'autres moyens pour un pirate d'exercer ses coupables talents.

P.S : mon utilisation d'httrack a été trop courte pour que je réponde à la demande initiale, mais je pense qu'ils ont ou figurent sur des forums. Mais je pense que c'est possible car il me semble qu'ils ont un filtrage par type de fichiers.

Cordialement
Messages postés
1221
Date d'inscription
jeudi 4 septembre 2008
Statut
Membre
Dernière intervention
2 janvier 2014
125
Aspirer un site n'a rien d'illégal. merci de savoir de quoi on parle avant de parler ;)
Messages postés
1221
Date d'inscription
jeudi 4 septembre 2008
Statut
Membre
Dernière intervention
2 janvier 2014
125
Très sympa comme logiciel :)
lorsque tu crées un projet, tu dois aller dans les options puis réglage de filtrage
La tu peux choisir quel type de fichier tu prends :)
J'ai déjà essayé mais cela me prend toutes les autres pages dont je n'ai pas besoin. Comment faire?
Merci pour ta réponse
Messages postés
1221
Date d'inscription
jeudi 4 septembre 2008
Statut
Membre
Dernière intervention
2 janvier 2014
125
donne moi ce que tu as écris dans le champ du filtre.
Messages postés
1180
Date d'inscription
dimanche 3 janvier 2010
Statut
Membre
Dernière intervention
4 août 2018
297
C'est simple, pour aspirer uniquement les pages que tu veux, au lieu de mettre l'adresse du site

http://www.example.com

tu marques

http://www.example.com/chien
http://www.example.com/chat
http://www.example.com/poisson

comme ca tu n'auras que les sous pages de ces pages et pas leurs autres pages qui parlent par exemple de la nourriture et des jouet.


donc en gros, tu précises simplement le champs de ta recherche
Messages postés
1221
Date d'inscription
jeudi 4 septembre 2008
Statut
Membre
Dernière intervention
2 janvier 2014
125
Tout dépend du nombre de liens de profondeur (aussi paramétrable).
Effectivement, j'ai essayé de mettre l'exemple de mimigenie mais il me prend toutes les pages...
Maintenant c'est intéressant l'idée du nombre de liens de profondeur mais c'est une notion que je ne maitrise pas... Comment faire?
Je vous donne le lien du site: http://www.legifrance.gouv.fr/affichSarde.do?reprise=true&fastReqId=817860530&idSarde=SARDOBJT000007104919&page=1

Il faut juste que je récupère tout les arrêtes ( soit html, soit .doc soit .pdf) sur la production d'électricité.

Merci pour votre patience.^^
Messages postés
23161
Date d'inscription
samedi 22 octobre 2005
Statut
Modérateur
Dernière intervention
24 juillet 2021
2 246
il y a des options à paramétrer correctement
ce n'est pas le seul 'aspirateur' existant ...
et si tu tombes sur un site qui en est protégé ???
... finalement c'est pour faire quoi ???
non ce n'est pas un site protégé, c'est un site ou l'on peu télécharger des documents librement sauf qui faut le faire un par un et il y en a plus de 1500. Donc l'objectif de httrack est de pouvoir , uniquement, récupérer ces documents qui sont soit en .doc soit en pdf soit en Html.

Merci pour votre aide^^