Reccuperer le contenu d'un répertoire web

adrien69003 -
ryko1820 Messages postés 1677 Date d'inscription Statut Membre Dernière intervention - 2 nov. 2013 à 18:15

bonjour à tous et toutes,

je m'en remets à ce super forum, ou j'éspère pouvoir trouver de l'aide.
Je vous explique... Je suis web marchant et j'ai un site internet de vente en ligne de produit animalier (aquariums, matos ...etc)
J'ai un rayon pompes de brassages, (pour eau de mer) et après avoir reçus l'autorisation de reccuperer les visuels de produit d"une marque, je voudrais savoir comment aspirer tout le contenue d'un repertoire ou j'ai tout mes visuels

voici un lien direct vers une image,
http://www.tunze.com/fileadmin/images/product_database/6095.000.jpg

voici les pages liées aux produits,
http://www.tunze.com/149.html?&L=2&C=FR&user_tunzeprod_pi1%5Bpredid%5D=-infoxunter063

le but pour moi serait de reccuperer toutes ces images, de les zippé, et de uppé sur mon serveur d'image perso.

j'éspère que j'ai été assez clair dans ce que je demande comme aide.

merci à tous, et bon samedi

Afficher la suite

A voir également:

Reccuperer le contenu d'un répertoire web
Web office - Guide
Navigateur web - Guide
Creer un site web - Guide
Le fichier à télécharger correspond au contenu brut d’un courrier électronique. de quel pays a été envoyé ce message ? - Guide
Fusionner deux cellules excel en gardant le contenu - Guide

4 réponses

Réponse 1 / 4

Aranud87 Messages postés 18033 Date d'inscription Statut Contributeur Dernière intervention 3 297

Salut,

le truc c'est que c'est bloqué : http://www.tunze.com/fileadmin/images/product_database/
Tu ne pourras pas faire grand chose...

le plus simple serait d'avoir un accès FTP pour récupérer en 1 sec le répertoire, il faut voir ça avec eux...

Réponse 2 / 4

adrien69003

Et donc pas moyen ( d'aspirer ? ) ...

Aranud87 Messages postés 18033 Date d'inscription Statut Contributeur Dernière intervention 3 297

Non de plus je pense et suppose qu'elle non pas un ordre logique genre :

photo1, photo2,photo3...
donc même avec un logiciel, c'est pas possible

Réponse 3 / 4

ryko1820 Messages postés 1677 Date d'inscription Statut Membre Dernière intervention 276

Hello,

Apparemment chaque photo correspond à sa référence, alors si tu as la liste des références (par exemple dans un fichier excel) pour lesquelles les photos t'intéressent il doit être possible de faire un script ...

Référence "6095.000" : image http://www.tunze.com/fileadmin/images/product_database/6095.000.jpg

et cela semble comme cela pour tout le site ...
Après il est possible qu'il y ait plusieurs photos différentes pour une même référence, je n'ai pas creusé jusque là ...

Par contre pour les schémas descriptifs (comme http://www.tunze.com/fileadmin/images/product_database/-info05.3.jpg ) , ils ne respectent pas cette logique.

EDIT : apparemment il y a un catalogue qui contient toutes les refs. Alors y'a plus qu'a faire un copier coller du lien "http://www.tunze.com/fileadmin/images/product_database/" + ref + ".jpg" pour avoir la liste plus ou moins complète des photos, libre ensuite de passer ça à un logiciel comme httrack ou plus simplement curl ...

You may stop me but you can't stop us all ;-)

Réponse 4 / 4

ryko1820 Messages postés 1677 Date d'inscription Statut Membre Dernière intervention 276

Yo,

J'ai fait un petit script curl basé sur http://www.tunze.com/fileadmin/images/product_additional/0091.000_F%2301.pdf (en passant par excel ça va vite) ...

Récupérer curl sur https://curl.haxx.se/download.html (win32 generic ou win64 generic suivant ton système) ...

Décompresser ses fichiers dans un répertoire.

Aller sur https://www.cjoint.com/c/CKcl1e6HMd6 et copier l'intégralité des lignes de la page (depuis le @echo off jusqu'à la dernière ligne curl) dans un nouveau fichier texte dans le même répertoire que curl.exe en, par exemple, recup_photo.txt (avec bloc-note ou autre).

Changer l'extension de ce fichier texte de .txt en .bat puis double-cliquer dessus.

Tu devrais récupérer environ 900 photos. (certains liens vont planter sûr car dans la références il y a un slash) ...
La référence du produit correspondra au nom de la photo ...

EDIT : Si tu es sur linux (chez toi ou sur ton serveur de photo), il y a des chances que curl soit déjà installé sur ton système, sinon remplacer l'occurence de "curl -O" par "wget" et lancer avec sh ... Ca éviterait de passer par chez toi, et ne prendra que quelques secondes pour récupérer les 900 photos ...

PS: le script ne sera sur cjoint que 24 jours ...

You may stop me but you can't stop us all ;-)

Adrien69003

des fois j'ai la haine d'être sous osX...
Et ca fonctionne pas. . . Mais ton truc avait pourtant l'air d etre bien. . . . C'est vraiement la loose pour moi là .

ryko1820 Messages postés 1677 Date d'inscription Statut Membre Dernière intervention 276

Çà marche aussi avec mac OS X ...

curl et même httrack sont proposés pour cet OS

1/ Avec curl (https://curl.haxx.se/download.html : Télécharger la version binary OS X i386 ou PPC suivant le type de processeur installé.

Par contre il faudra lancer le script (dans le même répertoire que celui ou sera installé curl) en le renommant, par exemple, "recup_photo.sh" par la commande "sh recup_photo.sh" et peut être faire auparavant un "chmod 777 recup_photo.sh".

2/ Avec httrack (en mode fenêtré : donc pas de console et peut être plus simple) ( http://www.httrack.com/page/2/fr/index.html ) récupérer la liste des url et retirer (avec rechercher / remplacer) tous les "curl -O" de chaque début de ligne dans la liste (ainsi que le @echo off du tout début) puis coller la liste dans la fenêtre d'httrack (au bon endroit).

Avec une connexion ADSL normale en moins de 10 mn les 900 photos sont téléchargées avec curl ou httrack ...

Discussions similaires

ca veut dire quoi wmg sur youtube ?

Chemin Logo du site de la Cité de l'espace

Votre réponse

Discussions similaires