Aspirer des fichiers spécifiques avec httrack
Résolu
Besdu06
-
okuni Messages postés 1221 Date d'inscription Statut Membre Dernière intervention -
okuni Messages postés 1221 Date d'inscription Statut Membre Dernière intervention -
Bonjour,
J'ai téléchargé un logiciel d'aspiration de site internet appelé httrack. Par contre je voudrai uniquement aspirer certaines pages du site mais en précisant, dans l'onglet option, le contenu (qui est toujours le même pour les pages que je veux aspirer) des pages. cependant, je me retrouve avec toutes les pages du site internet.
COmment pourrai je rectifier cela? Y a t il d'autres choses à modifier dans l'onglet option et que je n'aurai pas fait?
Merci pour toutes vos réponses!!!!!^^
Besma
J'ai téléchargé un logiciel d'aspiration de site internet appelé httrack. Par contre je voudrai uniquement aspirer certaines pages du site mais en précisant, dans l'onglet option, le contenu (qui est toujours le même pour les pages que je veux aspirer) des pages. cependant, je me retrouve avec toutes les pages du site internet.
COmment pourrai je rectifier cela? Y a t il d'autres choses à modifier dans l'onglet option et que je n'aurai pas fait?
Merci pour toutes vos réponses!!!!!^^
Besma
A voir également:
- Httrack tuto
- Httrack - Télécharger - Aspirateurs de sites
4 réponses
Je ne sais pas si tu peux récupérer les noms des fichiers que tu veux décharger.
Il m'arrive de partir du code source des pages (affiché avec le navigateur), de créer la liste des fichiers avec un éditeur quelconque pour ensuite la définir dans WinHttrack (de tête, ce doit être dans une boîte Adresse Web avec l'option Télécharger des fichiers spécifiques).
Sinon, comme l'indique okuni, tu peux définir la profondeur maximale, dans l'onglet limite.
>>> J'ai un doute, soudain, tu parles de Httrack, c'est une version command line, pourquoi n'utilises-tu pas WinHttrack ?
Il m'arrive de partir du code source des pages (affiché avec le navigateur), de créer la liste des fichiers avec un éditeur quelconque pour ensuite la définir dans WinHttrack (de tête, ce doit être dans une boîte Adresse Web avec l'option Télécharger des fichiers spécifiques).
Sinon, comme l'indique okuni, tu peux définir la profondeur maximale, dans l'onglet limite.
>>> J'ai un doute, soudain, tu parles de Httrack, c'est une version command line, pourquoi n'utilises-tu pas WinHttrack ?
bonjour,
je ne pense pas que CCM donnera des réponse car c'est un outils pour "pirater" un site en récupérant des informations/contenu.
https://www.commentcamarche.net/faq/307-devenir-pirate-informatique#q=piratage&cur=2&url=%2F
https://www.commentcamarche.net/infos/25921-pourquoi-ccm-n-aide-pas-la-contrefacon-numerique-des-logiciels/
https://www.commentcamarche.net/infos/25845-charte-d-utilisation-de-commentcamarche-net/
je ne pense pas que CCM donnera des réponse car c'est un outils pour "pirater" un site en récupérant des informations/contenu.
https://www.commentcamarche.net/faq/307-devenir-pirate-informatique#q=piratage&cur=2&url=%2F
https://www.commentcamarche.net/infos/25921-pourquoi-ccm-n-aide-pas-la-contrefacon-numerique-des-logiciels/
https://www.commentcamarche.net/infos/25845-charte-d-utilisation-de-commentcamarche-net/
Merci pour l'information Nico mais j'ai pris mes précautions avant de faire quoi que se soit^^.
L'aspirateur de site est autorisé dans le cas ou ce que qui est aspiré n'est pas utilisé à des fins commerciales.... Dans mon cas, le site aspiré fournit des documents que l'on peut consulter, télécharger légalement sauf qui doit se faire document par document et quand il y en a plus de 1500....c'est un peu long de les faire un par un.
merci encore pour l'info, c'est bon se savoir quand meme
L'aspirateur de site est autorisé dans le cas ou ce que qui est aspiré n'est pas utilisé à des fins commerciales.... Dans mon cas, le site aspiré fournit des documents que l'on peut consulter, télécharger légalement sauf qui doit se faire document par document et quand il y en a plus de 1500....c'est un peu long de les faire un par un.
merci encore pour l'info, c'est bon se savoir quand meme
Bonjour à tous,
Pour avoir utilisé httrack, je peux vous dire que cet outil n'est pas plus destiné à pirater que de le fait de faire une photo d'écran ou d'avoir recours à une session ftp. Ce qui est interdit, c'est de les réutiliser commercialement ou sur un site. Les aspirateurs de Web servaient beaucoup plus à l'époque des connexions lentes RTC. Ils permettent de récupérer un site entier ou un type de documents en quelques clics. Il est d'ailleurs possible de récupérer les images d'un site dans le dossier image de chaque page html, ce qui n'autorise pas plus à les utiliser. Faisons donc le crédit à Besdu06 de ne vouloir que récupérer des documents sans avoir à parcourir et sauvegarder des centaines de pages. C'est le droit de tout un chacun d'archiver et de consulter hors-ligne des documents. Le net est fait pour cela. Il y a bien d'autres moyens pour un pirate d'exercer ses coupables talents.
P.S : mon utilisation d'httrack a été trop courte pour que je réponde à la demande initiale, mais je pense qu'ils ont ou figurent sur des forums. Mais je pense que c'est possible car il me semble qu'ils ont un filtrage par type de fichiers.
Cordialement
Pour avoir utilisé httrack, je peux vous dire que cet outil n'est pas plus destiné à pirater que de le fait de faire une photo d'écran ou d'avoir recours à une session ftp. Ce qui est interdit, c'est de les réutiliser commercialement ou sur un site. Les aspirateurs de Web servaient beaucoup plus à l'époque des connexions lentes RTC. Ils permettent de récupérer un site entier ou un type de documents en quelques clics. Il est d'ailleurs possible de récupérer les images d'un site dans le dossier image de chaque page html, ce qui n'autorise pas plus à les utiliser. Faisons donc le crédit à Besdu06 de ne vouloir que récupérer des documents sans avoir à parcourir et sauvegarder des centaines de pages. C'est le droit de tout un chacun d'archiver et de consulter hors-ligne des documents. Le net est fait pour cela. Il y a bien d'autres moyens pour un pirate d'exercer ses coupables talents.
P.S : mon utilisation d'httrack a été trop courte pour que je réponde à la demande initiale, mais je pense qu'ils ont ou figurent sur des forums. Mais je pense que c'est possible car il me semble qu'ils ont un filtrage par type de fichiers.
Cordialement
Très sympa comme logiciel :)
lorsque tu crées un projet, tu dois aller dans les options puis réglage de filtrage
La tu peux choisir quel type de fichier tu prends :)
lorsque tu crées un projet, tu dois aller dans les options puis réglage de filtrage
La tu peux choisir quel type de fichier tu prends :)
C'est simple, pour aspirer uniquement les pages que tu veux, au lieu de mettre l'adresse du site
http://www.example.com
tu marques
http://www.example.com/chien
http://www.example.com/chat
http://www.example.com/poisson
comme ca tu n'auras que les sous pages de ces pages et pas leurs autres pages qui parlent par exemple de la nourriture et des jouet.
donc en gros, tu précises simplement le champs de ta recherche
http://www.example.com
tu marques
http://www.example.com/chien
http://www.example.com/chat
http://www.example.com/poisson
comme ca tu n'auras que les sous pages de ces pages et pas leurs autres pages qui parlent par exemple de la nourriture et des jouet.
donc en gros, tu précises simplement le champs de ta recherche
Effectivement, j'ai essayé de mettre l'exemple de mimigenie mais il me prend toutes les pages...
Maintenant c'est intéressant l'idée du nombre de liens de profondeur mais c'est une notion que je ne maitrise pas... Comment faire?
Je vous donne le lien du site: http://www.legifrance.gouv.fr/affichSarde.do?reprise=true&fastReqId=817860530&idSarde=SARDOBJT000007104919&page=1
Il faut juste que je récupère tout les arrêtes ( soit html, soit .doc soit .pdf) sur la production d'électricité.
Merci pour votre patience.^^
Maintenant c'est intéressant l'idée du nombre de liens de profondeur mais c'est une notion que je ne maitrise pas... Comment faire?
Je vous donne le lien du site: http://www.legifrance.gouv.fr/affichSarde.do?reprise=true&fastReqId=817860530&idSarde=SARDOBJT000007104919&page=1
Il faut juste que je récupère tout les arrêtes ( soit html, soit .doc soit .pdf) sur la production d'électricité.
Merci pour votre patience.^^
il y a des options à paramétrer correctement
ce n'est pas le seul 'aspirateur' existant ...
et si tu tombes sur un site qui en est protégé ???
... finalement c'est pour faire quoi ???
ce n'est pas le seul 'aspirateur' existant ...
et si tu tombes sur un site qui en est protégé ???
... finalement c'est pour faire quoi ???
non ce n'est pas un site protégé, c'est un site ou l'on peu télécharger des documents librement sauf qui faut le faire un par un et il y en a plus de 1500. Donc l'objectif de httrack est de pouvoir , uniquement, récupérer ces documents qui sont soit en .doc soit en pdf soit en Html.
Merci pour votre aide^^
Merci pour votre aide^^
Merci pour ton aide
Pour tout dire, je n'avais jamais vu que httack.exe existait.
Tout ce que je peux te conseiller c'est de télécharger Winhttrack et de l'installer.
Pas compliqué à utiliser, son paramétrage se comprend tout seul.
le mieux pour bien aspirer, c'est de passer en revue toutes les options et entre autre le nombre de liens de profondeur. dans ton cas, tu ne dois prend qu'un lien de profondeur (ou 2 car je ne sais plus si le premier que tu donne en référence compte comme lien de profondeur)
ensuite, dans le filtre, tu indique que tu veux que des fichiers .doc, .html ou autre, donc :
+*.doc+*.html
je pense que ça devrait fonctionner :p