Filtre de fichiers

Fermé
biohazard-34 - 27 janv. 2010 à 09:24
 biohazard-34 - 10 févr. 2010 à 11:54
Bonjour a tous,
est-ce que quelqu'un saurait s'il est possible de mettre un filtre pour ce processus Linux?

wget -o log.txt -m -np --exclude-directories <photos>,<videos>,<ogg> -F -B http://http://<mon_URL> http://<mon_URL>

On obtient un fichier log.txt de ce genre :

--22:37:13-- http://<mon_URL>/
=> `<mon_URL>/index.html'
Résolution de <mon_URL>... 213.186.33.2
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... .......... . 156.42 KB/s
22:37:16 (166.86 KB/s) - « <mon_URL>/L-association/index.html » sauvegardé [26784]
--22:37:16-- http://<mon_URL>/Les-Actions/
=> `<mon_URL>/Les-Actions/index.html'
Connexion vers <mon_URL>|213.186.33.2|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]
0K .......... .......... ..... 130.94 KB/s
22:37:16 (130.94 KB/s) - « <mon_URL>/Les-Actions/index.html » sauvegardé [26287]
(etc... etc... etc...)

Pour ne conserver que les adresse URL, entrez la commande suivante :
cat log.txt |grep http |cut -c 15- > sitemap.txt

…et on a bien TOUTES les URL de nos pages mais aussi les images, pdf, ...

Le truc c'est que ce code renvoi tout les lien trouver..et j'aimerai qu'il ne renvoi seulement que les fichier .htm ou .php ou .aspx ( enfait tout sauf les image pdf ou autre)

Merci vous vos réponse et les espérant nombreuses. :)
A voir également:

4 réponses

jipicy Messages postés 40842 Date d'inscription jeudi 28 août 2003 Statut Modérateur Dernière intervention 10 août 2020 4 897
27 janv. 2010 à 09:46
Salut,

man wget :

       Options récursives d'acceptation et de rejet

       -A accliste --accept accliste
       -R rejliste --reject rejliste
           spécifie la liste (avec la virgule comme séparateur) des suffixes
           ou modèles de noms de fichiers qui doivent être acceptés ou
           rejetés.

Ou dans le filtre "grep" :

cat log.txt | grep http | egrep  '\.(html|php|aspx)' | cut -c 15- > sitemap.txt 
0
biohazard-34
27 janv. 2010 à 09:54
Merci bcp :)

Dis-moi j'ai quelque lacune en linux, tu pourrais me conseiller un site assez sympa pour me perfectionner?
0
j'me demander s'il était possible de supprimer les doublon d'url dans le :
cat log.txt | grep http | egrep '\.(html|php|aspx)' | cut -c 15- > sitemap.txt

Quelqu'un pour m'aider?
0
jipicy Messages postés 40842 Date d'inscription jeudi 28 août 2003 Statut Modérateur Dernière intervention 10 août 2020 4 897
10 févr. 2010 à 11:39
Salut,

man uniq :

NOM
       uniq - Éliminer les lignes dupliquées dans un fichier trié.
0
biohazard-34 > jipicy Messages postés 40842 Date d'inscription jeudi 28 août 2003 Statut Modérateur Dernière intervention 10 août 2020
10 févr. 2010 à 11:41
Merci beaucoup... :)
Je vais tester :p
0
Merci c'est niquel ton affeur lo !:)
0