Aspirer des fichiers spécifiques avec httrack

Résolu

Besdu06 -
okuni Messages postés 1325 Statut Membre - 28 mai 2011 à 16:53

Bonjour,

J'ai téléchargé un logiciel d'aspiration de site internet appelé httrack. Par contre je voudrai uniquement aspirer certaines pages du site mais en précisant, dans l'onglet option, le contenu (qui est toujours le même pour les pages que je veux aspirer) des pages. cependant, je me retrouve avec toutes les pages du site internet.

COmment pourrai je rectifier cela? Y a t il d'autres choses à modifier dans l'onglet option et que je n'aurai pas fait?

Merci pour toutes vos réponses!!!!!^^

Besma

Afficher la suite

A voir également:

Httrack tuto
Httrack - Télécharger - Aspirateurs de sites

4 réponses

Réponse 1 / 4

telliak Messages postés 4387 Statut Membre 883

Je ne sais pas si tu peux récupérer les noms des fichiers que tu veux décharger.
Il m'arrive de partir du code source des pages (affiché avec le navigateur), de créer la liste des fichiers avec un éditeur quelconque pour ensuite la définir dans WinHttrack (de tête, ce doit être dans une boîte Adresse Web avec l'option Télécharger des fichiers spécifiques).
Sinon, comme l'indique okuni, tu peux définir la profondeur maximale, dans l'onglet limite.
>>> J'ai un doute, soudain, tu parles de Httrack, c'est une version command line, pourquoi n'utilises-tu pas WinHttrack ?

besdu06

A je ne connait pas WinHttrack...c'est plus simple à utiliser?? Si oui il faut le télécharger?

Merci pour ton aide

telliak Messages postés 4387 Statut Membre 883

Dans mon installation (qui date pas mal) les deux programmes sont installés dans le même dossier, ils ont donc été chargés ensemble.
Pour tout dire, je n'avais jamais vu que httack.exe existait.
Tout ce que je peux te conseiller c'est de télécharger Winhttrack et de l'installer.
Pas compliqué à utiliser, son paramétrage se comprend tout seul.

okuni Messages postés 1325 Statut Membre 126

ha je ne savais même pas qu'il y avait 2 versions différentes. je parle de Winhttrack
le mieux pour bien aspirer, c'est de passer en revue toutes les options et entre autre le nombre de liens de profondeur. dans ton cas, tu ne dois prend qu'un lien de profondeur (ou 2 car je ne sais plus si le premier que tu donne en référence compte comme lien de profondeur)
ensuite, dans le filtre, tu indique que tu veux que des fichiers .doc, .html ou autre, donc :
+*.doc+*.html

je pense que ça devrait fonctionner :p

Réponse 2 / 4

Nico_ Messages postés 1302 Statut Membre 189

bonjour,
je ne pense pas que CCM donnera des réponse car c'est un outils pour "pirater" un site en récupérant des informations/contenu.
https://www.commentcamarche.net/faq/307-devenir-pirate-informatique#q=piratage&cur=2&url=%2F
https://www.commentcamarche.net/infos/25921-pourquoi-ccm-n-aide-pas-la-contrefacon-numerique-des-logiciels/
https://www.commentcamarche.net/infos/25845-charte-d-utilisation-de-commentcamarche-net/

bg62 Messages postés 26231 Date d'inscription Statut Modérateur Dernière intervention 2 418

rien n'a voir avec le piratage !!!
cherche un peu dans les astuces ou téléchargements, il y a une foule d'aspirateurs de sites ...
mais que valent-ils finalement dans la pratique, surtout sur des sites sécurisés ???

Besdu06

Merci pour l'information Nico mais j'ai pris mes précautions avant de faire quoi que se soit^^.
L'aspirateur de site est autorisé dans le cas ou ce que qui est aspiré n'est pas utilisé à des fins commerciales.... Dans mon cas, le site aspiré fournit des documents que l'on peut consulter, télécharger légalement sauf qui doit se faire document par document et quand il y en a plus de 1500....c'est un peu long de les faire un par un.

merci encore pour l'info, c'est bon se savoir quand meme

telliak Messages postés 4387 Statut Membre 883

Pirater ce qui est accessible librement ? Quelle drôle d'idée.

georges97 Messages postés 20439 Date d'inscription Statut Contributeur Dernière intervention 2 705

Bonjour à tous,

Pour avoir utilisé httrack, je peux vous dire que cet outil n'est pas plus destiné à pirater que de le fait de faire une photo d'écran ou d'avoir recours à une session ftp. Ce qui est interdit, c'est de les réutiliser commercialement ou sur un site. Les aspirateurs de Web servaient beaucoup plus à l'époque des connexions lentes RTC. Ils permettent de récupérer un site entier ou un type de documents en quelques clics. Il est d'ailleurs possible de récupérer les images d'un site dans le dossier image de chaque page html, ce qui n'autorise pas plus à les utiliser. Faisons donc le crédit à Besdu06 de ne vouloir que récupérer des documents sans avoir à parcourir et sauvegarder des centaines de pages. C'est le droit de tout un chacun d'archiver et de consulter hors-ligne des documents. Le net est fait pour cela. Il y a bien d'autres moyens pour un pirate d'exercer ses coupables talents.

P.S : mon utilisation d'httrack a été trop courte pour que je réponde à la demande initiale, mais je pense qu'ils ont ou figurent sur des forums. Mais je pense que c'est possible car il me semble qu'ils ont un filtrage par type de fichiers.

Cordialement

okuni Messages postés 1325 Statut Membre 126

Aspirer un site n'a rien d'illégal. merci de savoir de quoi on parle avant de parler ;)

Réponse 3 / 4

okuni Messages postés 1325 Statut Membre 126

Très sympa comme logiciel :)
lorsque tu crées un projet, tu dois aller dans les options puis réglage de filtrage
La tu peux choisir quel type de fichier tu prends :)

Besdu06

J'ai déjà essayé mais cela me prend toutes les autres pages dont je n'ai pas besoin. Comment faire?
Merci pour ta réponse

okuni Messages postés 1325 Statut Membre 126

donne moi ce que tu as écris dans le champ du filtre.

mimigenie Messages postés 1180 Date d'inscription Statut Membre Dernière intervention 313

C'est simple, pour aspirer uniquement les pages que tu veux, au lieu de mettre l'adresse du site

http://www.example.com

tu marques

http://www.example.com/chien
http://www.example.com/chat
http://www.example.com/poisson

comme ca tu n'auras que les sous pages de ces pages et pas leurs autres pages qui parlent par exemple de la nourriture et des jouet.

donc en gros, tu précises simplement le champs de ta recherche

okuni Messages postés 1325 Statut Membre 126

Tout dépend du nombre de liens de profondeur (aussi paramétrable).

besdu06

Effectivement, j'ai essayé de mettre l'exemple de mimigenie mais il me prend toutes les pages...
Maintenant c'est intéressant l'idée du nombre de liens de profondeur mais c'est une notion que je ne maitrise pas... Comment faire?
Je vous donne le lien du site: http://www.legifrance.gouv.fr/affichSarde.do?reprise=true&fastReqId=817860530&idSarde=SARDOBJT000007104919&page=1

Il faut juste que je récupère tout les arrêtes ( soit html, soit .doc soit .pdf) sur la production d'électricité.

Merci pour votre patience.^^

Réponse 4 / 4

bg62 Messages postés 26231 Date d'inscription Statut Modérateur Dernière intervention 2 418

il y a des options à paramétrer correctement
ce n'est pas le seul 'aspirateur' existant ...
et si tu tombes sur un site qui en est protégé ???
... finalement c'est pour faire quoi ???

Besdu06

non ce n'est pas un site protégé, c'est un site ou l'on peu télécharger des documents librement sauf qui faut le faire un par un et il y en a plus de 1500. Donc l'objectif de httrack est de pouvoir , uniquement, récupérer ces documents qui sont soit en .doc soit en pdf soit en Html.

Merci pour votre aide^^

Discussions similaires

installer HTTTACK sur MacOs

comment installer et utiliser httrack website

Aspirer des fichiers spécifiques avec httrack

4 réponses

Votre réponse

Discussions similaires

Newsletters