[Slackware] wget et slackbuilds(point)org

Résolu/Fermé
I1I2I3I - 8 sept. 2011 à 14:02
Bogomips Messages postés 123 Date d'inscription mardi 5 avril 2011 Statut Membre Dernière intervention 18 mars 2015 - 9 sept. 2011 à 10:07
Bonjour,

Je suis nouveau sous Slackware et je suis confronté à un problème.

Je souhaite télécharger et installer un paquet à partir d'un slackbuild. Je lance donc la commande suivante pour télécharger anacron:

wget http://slackbuilds.org/slackbuilds/13.37/system/anacron/
Ce qui me télécharge le fichier slackbuilds/13.37/system/anacron/index.html

Je réessaye donc en modifiant un peu la commande:
wget -ri http://slackbuilds.org/slackbuilds/13.37/system/anacron/index.html
Ce qui me retourne "No URL's found in index.html"

Avec la commande wget -base=http://slackbuilds.org/ --no-parent -ri http://slackbuilds.org/slackbuilds/13.37/system/anacron/index.html, wget essaye de dl tout le contenu du site.

Enfin, avec wget --no-parent -r http://slackbuilds.org/slackbuilds/13.37/system/anacron/, je reçois le fichier robot.txt qui indique disallow sur /slackbuilds/ et d'autres répertoires du site.

Ma question est la suivante: est-ce à cause d'une mauvaise utilisation de wget ou est-ce le site qui empêche les aspirateurs de contenu ?
Comment puis-je récupérer le contenu du répertoire anacron/ sur slackbuilds.org sans télécharger les fichiers un par un (ce qui fonctionne très bien) ?

Je vous remercie d'avance.

1 réponse

zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 418
8 sept. 2011 à 15:27
Salut,

$ ls

$ touch robots.txt

$ wget -q -r -l1 -nd -nc -np --reject="index.html*" http://slackbuilds.org/slackbuilds/13.37/system/anacron/

$ ls -lh
total 24K
-rw-r--r-- 1 jp jp  295 2010-05-27 06:51 anacron.info
-rw-r--r-- 1 jp jp 2,7K 2010-06-16 07:22 anacron.SlackBuild
-rw-r--r-- 1 jp jp  361 2010-05-27 06:51 anacrontab.new
-rw-r--r-- 1 jp jp  427 2010-05-27 06:51 doinst.sh
-rw-r--r-- 1 jp jp 1,7K 2010-05-27 06:51 README
-rw-r--r-- 1 jp jp    0 2011-09-08 15:26 robots.txt
-rw-r--r-- 1 jp jp  936 2010-05-27 06:51 slack-desc

$

man wget pour toutes les options ;-))
0
Voilà ça fonctionne à la perfection merci beaucoup !

J'ai recherché à quoi correspondaient les attributs dans la page de man:wget, mais je n'ai pas trouvé ce que faisait l'argument "q", pourriez-vous m'expliquer ?

Je sais que j'vais me faire lyncher en disant ça mais certaines pages de man sont tellement grandes et complètes qu'on s'y perd et qu'on sait plus ce qu'on cherche à la fin...

Merci d'avance.
0
zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 418
8 sept. 2011 à 17:16
Extrait en tout début de man wget :

      -q
       --quiet
           Désactive la sortie de Wget.
0
zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 418
8 sept. 2011 à 17:21
En fait l'astuce c'est surtout le fichier "robots.txt" vide, qui combiné à l'option "-nc" empêche le téléchargement du vrai fichier "robots.txt", le fautif dans tes précédentes tentatives de téléchargement.

Le contenu du vrai fichier :

User-agent: *
Disallow: /includes/
Disallow: /images/
Disallow: /slackbuilds/
Disallow: /pending
0
Très bien merci, j'l'avais loupé :)

Excellente la Slackware pédagogiquement, du moins aussi bon que FreeBSD.

Merci encore

@+
0
Bogomips Messages postés 123 Date d'inscription mardi 5 avril 2011 Statut Membre Dernière intervention 18 mars 2015 16
9 sept. 2011 à 10:07
Salut

Anacron est disponible dans les dépôts de Slackware:
http://repository.slacky.eu/slackware-13.37/system/anacron/2.5.3/
0