SCRIPT chrome download automatique
TOT127
Messages postés
898
Date d'inscription
Statut
Membre
Dernière intervention
-
TOT127 Messages postés 898 Date d'inscription Statut Membre Dernière intervention -
TOT127 Messages postés 898 Date d'inscription Statut Membre Dernière intervention -
Coucou,
je dois télvaécharger 2000 PDF dans un site d'une institution. tout gratuit. Mias bon, le temps... Et ils ont que 40 PDF sur chaque page.
C'est toujours la même méthode:
Je pense me le coltiner à la main, mais à tout hasard, on peut faire ça de façon automatisée en écrivant un script ? Je vous mets en document cijoint le lien de la bibliothèque (je le fais pas ici pour raisons de privacy de l'institution): http://www.cjoint.com/c/GBiwEEFqryY
merci :)
je dois télvaécharger 2000 PDF dans un site d'une institution. tout gratuit. Mias bon, le temps... Et ils ont que 40 PDF sur chaque page.
C'est toujours la même méthode:
-> passe page
- clique lien 'document x"
> nouvelle page
> descends
> clique sur le nom de fichier en bas
> retourne (ou ferme l'onglet plutôt)
recommence avec le lien "document x+1"
Je pense me le coltiner à la main, mais à tout hasard, on peut faire ça de façon automatisée en écrivant un script ? Je vous mets en document cijoint le lien de la bibliothèque (je le fais pas ici pour raisons de privacy de l'institution): http://www.cjoint.com/c/GBiwEEFqryY
merci :)
A voir également:
- SCRIPT chrome download automatique
- Réponse automatique thunderbird - Guide
- Script vidéo youtube - Guide
- Mise a jour chrome - Accueil - Applications & Logiciels
- Google chrome download - Télécharger - Navigateurs
- Microsoft store download - Guide
1 réponse
Oui ça peut se faire
Déja c'est un peu barbare, mais dans l'url tu as un paramètre "rpp=" c'est le nombre de résultats à afficher par page, si tu le mets à 2072 tu pourra avoir tous les liens qui mènent au téléchargement en une seule fois :
Une fois que tu as tous ces liens il suffit de télécharger le contenu de la page, récupérer le lien http://blabla/truc/chose.pdf et le télécharger.
Ça peut se faire assez rapidement en python (libsoup, urllib) ou en bash (curl, grep, wget)
Déja c'est un peu barbare, mais dans l'url tu as un paramètre "rpp=" c'est le nombre de résultats à afficher par page, si tu le mets à 2072 tu pourra avoir tous les liens qui mènent au téléchargement en une seule fois :
var str = document.body.innerHTML ; var d = str.match(/\/bib\/jspui\/handle\/[0-9]{4}\/[0-9]{4}/g);
Une fois que tu as tous ces liens il suffit de télécharger le contenu de la page, récupérer le lien http://blabla/truc/chose.pdf et le télécharger.
Ça peut se faire assez rapidement en python (libsoup, urllib) ou en bash (curl, grep, wget)
Content de savoir que ça veut se faire!
Par contre je crois que c'est totalement en dehors de ma compétence :/... mais je peux essayer d'apprendre. Pour too je crois que je peux le débrouiller, mais je ne con aid ni bash ni python
Leur site marchait pas, il y a 3 mois je leur ai dit, ils m'ont dit non non ça marche, et là maintenant, ils m'ont écrit pour me dire que j'avais raison et que leur site s'affichait pas dans les navigateurs en français et qu'ils allaient y travailler. C'est fou haha
Sinon, une fois que les liens sont récupérés (voir code javascript ci dessus), sous mac tu peux faire un code bash qui va parcourir chaque lien (voir la structure for truc in trucutruc do done https://www.cyberciti.biz/faq/bash-for-loop/ ) télécharger le contenu (https://doc.ubuntu-fr.org/wget repérer les liens .pdf (https://www.digitalocean.com/community/tutorials/using-grep-regular-expressions-to-search-for-text-patterns-in-linux ) et les télécharger ( wget à nouveau)