Filtre de fichiers
biohazard-34
-
biohazard-34 -
biohazard-34 -
Bonjour a tous,
est-ce que quelqu'un saurait s'il est possible de mettre un filtre pour ce processus Linux?
wget -o log.txt -m -np --exclude-directories <photos>,<videos>,<ogg> -F -B http://http://<mon_URL> http://<mon_URL>
On obtient un fichier log.txt de ce genre :
--22:37:13-- http://<mon_URL>/
=> `<mon_URL>/index.html'
Résolution de <mon_URL>... 213.186.33.2
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... .......... . 156.42 KB/s
22:37:16 (166.86 KB/s) - « <mon_URL>/L-association/index.html » sauvegardé [26784]
--22:37:16-- http://<mon_URL>/Les-Actions/
=> `<mon_URL>/Les-Actions/index.html'
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... ..... 130.94 KB/s
22:37:16 (130.94 KB/s) - « <mon_URL>/Les-Actions/index.html » sauvegardé [26287]
(etc... etc... etc...)
Pour ne conserver que les adresse URL, entrez la commande suivante :
cat log.txt |grep http |cut -c 15- > sitemap.txt
…et on a bien TOUTES les URL de nos pages mais aussi les images, pdf, ...
Le truc c'est que ce code renvoi tout les lien trouver..et j'aimerai qu'il ne renvoi seulement que les fichier .htm ou .php ou .aspx ( enfait tout sauf les image pdf ou autre)
Merci vous vos réponse et les espérant nombreuses. :)
est-ce que quelqu'un saurait s'il est possible de mettre un filtre pour ce processus Linux?
wget -o log.txt -m -np --exclude-directories <photos>,<videos>,<ogg> -F -B http://http://<mon_URL> http://<mon_URL>
On obtient un fichier log.txt de ce genre :
--22:37:13-- http://<mon_URL>/
=> `<mon_URL>/index.html'
Résolution de <mon_URL>... 213.186.33.2
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... .......... . 156.42 KB/s
22:37:16 (166.86 KB/s) - « <mon_URL>/L-association/index.html » sauvegardé [26784]
--22:37:16-- http://<mon_URL>/Les-Actions/
=> `<mon_URL>/Les-Actions/index.html'
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... ..... 130.94 KB/s
22:37:16 (130.94 KB/s) - « <mon_URL>/Les-Actions/index.html » sauvegardé [26287]
(etc... etc... etc...)
Pour ne conserver que les adresse URL, entrez la commande suivante :
cat log.txt |grep http |cut -c 15- > sitemap.txt
…et on a bien TOUTES les URL de nos pages mais aussi les images, pdf, ...
Le truc c'est que ce code renvoi tout les lien trouver..et j'aimerai qu'il ne renvoi seulement que les fichier .htm ou .php ou .aspx ( enfait tout sauf les image pdf ou autre)
Merci vous vos réponse et les espérant nombreuses. :)
A voir également:
- Filtre de fichiers
- Photo filtre 7 gratuit - Télécharger - Retouche d'image
- Explorateur de fichiers - Guide
- Renommer des fichiers en masse - Guide
- Fichiers epub - Guide
- Filtre whatsapp - Accueil - Messagerie instantanée
4 réponses
Salut,
man wget :
Ou dans le filtre "grep" :
man wget :
Options récursives d'acceptation et de rejet -A accliste --accept accliste -R rejliste --reject rejliste spécifie la liste (avec la virgule comme séparateur) des suffixes ou modèles de noms de fichiers qui doivent être acceptés ou rejetés.
Ou dans le filtre "grep" :
cat log.txt | grep http | egrep '\.(html|php|aspx)' | cut -c 15- > sitemap.txt
Merci bcp :)
Dis-moi j'ai quelque lacune en linux, tu pourrais me conseiller un site assez sympa pour me perfectionner?
Dis-moi j'ai quelque lacune en linux, tu pourrais me conseiller un site assez sympa pour me perfectionner?