Filtre de fichiers

biohazard-34 -  
 biohazard-34 -
Bonjour a tous,
est-ce que quelqu'un saurait s'il est possible de mettre un filtre pour ce processus Linux?

wget -o log.txt -m -np --exclude-directories <photos>,<videos>,<ogg> -F -B http://http://<mon_URL> http://<mon_URL>

On obtient un fichier log.txt de ce genre :

--22:37:13-- http://<mon_URL>/
=> `<mon_URL>/index.html'
Résolution de <mon_URL>... 213.186.33.2
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... .......... . 156.42 KB/s
22:37:16 (166.86 KB/s) - « <mon_URL>/L-association/index.html » sauvegardé [26784]
--22:37:16-- http://<mon_URL>/Les-Actions/
=> `<mon_URL>/Les-Actions/index.html'
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... ..... 130.94 KB/s
22:37:16 (130.94 KB/s) - « <mon_URL>/Les-Actions/index.html » sauvegardé [26287]
(etc... etc... etc...)

Pour ne conserver que les adresse URL, entrez la commande suivante :
cat log.txt |grep http |cut -c 15- > sitemap.txt

…et on a bien TOUTES les URL de nos pages mais aussi les images, pdf, ...

Le truc c'est que ce code renvoi tout les lien trouver..et j'aimerai qu'il ne renvoi seulement que les fichier .htm ou .php ou .aspx ( enfait tout sauf les image pdf ou autre)

Merci vous vos réponse et les espérant nombreuses. :)
A voir également:

4 réponses

jipicy Messages postés 40842 Date d'inscription   Statut Modérateur Dernière intervention   4 896
 
Salut,

man wget :

       Options récursives d'acceptation et de rejet

       -A accliste --accept accliste
       -R rejliste --reject rejliste
           spécifie la liste (avec la virgule comme séparateur) des suffixes
           ou modèles de noms de fichiers qui doivent être acceptés ou
           rejetés.

Ou dans le filtre "grep" :

cat log.txt | grep http | egrep  '\.(html|php|aspx)' | cut -c 15- > sitemap.txt 
0
biohazard-34
 
Merci bcp :)

Dis-moi j'ai quelque lacune en linux, tu pourrais me conseiller un site assez sympa pour me perfectionner?
0
biohazard-34
 
j'me demander s'il était possible de supprimer les doublon d'url dans le :
cat log.txt | grep http | egrep '\.(html|php|aspx)' | cut -c 15- > sitemap.txt

Quelqu'un pour m'aider?
0
jipicy Messages postés 40842 Date d'inscription   Statut Modérateur Dernière intervention   4 896
 
Salut,

man uniq :

NOM
       uniq - Éliminer les lignes dupliquées dans un fichier trié.
0
biohazard-34 > jipicy Messages postés 40842 Date d'inscription   Statut Modérateur Dernière intervention  
 
Merci beaucoup... :)
Je vais tester :p
0
biohazard-34
 
Merci c'est niquel ton affeur lo !:)
0