Comparaison ligne à ligne dans fichier unix
lestat2008
Messages postés
6
Date d'inscription
Statut
Membre
Dernière intervention
-
lestat2008 Messages postés 6 Date d'inscription Statut Membre Dernière intervention -
lestat2008 Messages postés 6 Date d'inscription Statut Membre Dernière intervention -
Bonjour à tous,
Une seule chose à dire, à l'aiiiiiiidddddddddeeeeeeeeeeuuuuuu,
plaisanterie mise a part, voila ce sur quoi je bloque depuis quelques jours, j'ai un fichier unix qui contient des lignes successives identiques et ce plusieurs fois dans le fichier, comme par exemple :
[bloc1]
AA
BB
CC
DD
DD
[bloc2]
EE
FF
DD
[bloc3]
GG
HH
II
DD
DD
Mon but est de supprimer toutes les lignes identiques successives de manière à trouver en sortie un fichier du type :
[bloc1]
AA
BB
CC
DD
[bloc2]
EE
FF
DD
[bloc3]
GG
HH
II
DD
D'avance merci pour votre support,
Cdlt.
Une seule chose à dire, à l'aiiiiiiidddddddddeeeeeeeeeeuuuuuu,
plaisanterie mise a part, voila ce sur quoi je bloque depuis quelques jours, j'ai un fichier unix qui contient des lignes successives identiques et ce plusieurs fois dans le fichier, comme par exemple :
[bloc1]
AA
BB
CC
DD
DD
[bloc2]
EE
FF
DD
[bloc3]
GG
HH
II
DD
DD
Mon but est de supprimer toutes les lignes identiques successives de manière à trouver en sortie un fichier du type :
[bloc1]
AA
BB
CC
DD
[bloc2]
EE
FF
DD
[bloc3]
GG
HH
II
DD
D'avance merci pour votre support,
Cdlt.
A voir également:
- Comparaison ligne à ligne dans fichier unix
- Partager photos en ligne - Guide
- Fichier bin - Guide
- Aller à la ligne excel - Guide
- Mètre en ligne - Guide
- Fichier epub - Guide
5 réponses
Salut,
[tmpfs]$ cat plop [bloc1] AA BB CC DD DD [bloc2] EE FF DD [bloc3] GG HH II DD DD [tmpfs]$ uniq plop [bloc1] AA BB CC DD [bloc2] EE FF DD [bloc3] GG HH II DD [tmpfs]$;-))
Merci pour ta réactivité mais je vais préciser encore un point qui risque de compliquer les choses, à savoir que dans ce fameux fichier, j'ai d autres lignes identiques que je ne souhaite pas supprimer or la commande uniq supprime TOUS les doublons (enfin il me semble) et je ne cherche qu'à supprimer en doublon en particulier, typiquement cela donne a peu près ça :
[bloc1]
AA
BB
CC
DD
DD
[bloc2]
EE
AA
FF
DD
[bloc3]
GG
HH
BB
II
CC
DD
DD
donc pour être plus précis, je ne cherche qu'à supprimer les doublons du type DD et non pas tous les autres qui peuvent apparaitrent, j'espère avoir été suffisament explicite cette fois-ci, désolé.
Merci d'avance.
[bloc1]
AA
BB
CC
DD
DD
[bloc2]
EE
AA
FF
DD
[bloc3]
GG
HH
BB
II
CC
DD
DD
donc pour être plus précis, je ne cherche qu'à supprimer les doublons du type DD et non pas tous les autres qui peuvent apparaitrent, j'espère avoir été suffisament explicite cette fois-ci, désolé.
Merci d'avance.
Je n'ai rien inventé, c'est juste une adaptation de la syntaxe trouvée dans "info sed" qui émule la fonction "uniq"...(j'ai rajouté quelques doublons au cas ou)
[tmpfs]$ cat plop [bloc1] AA BB CC CC DD DD DD [bloc2] EE AA FF FF DD [bloc3] GG HH HH BB II CC DD DD DD [tmpfs]$ sed 'h;:z;$b;N;/\(DD\)\n\1$/{g;bz};$b;P;D' plop [bloc1] AA BB CC CC DD [bloc2] EE AA FF FF DD [bloc3] GG HH HH BB II CC DD [tmpfs]$;-))
Merci pour ta réponse mais lorsque j'éxécute la commande, j'ai le retour suivant :
$sed 'h;:z;$b;N;/\(DD\)\n\1$/{g;bz};$b;P;D' test.txt > test2.txt
Label too long: h;:z;$b;N;/\(DD\)\n\1$/{g;bz};$b;P;D
de plus, pourrais-tu développer le contenu de la commande ?
je sais, je suis chiant mais j'aime comprendre ce que je fais :P pour ne plus avoir à redemander après ;)
D'avance, merci.
$sed 'h;:z;$b;N;/\(DD\)\n\1$/{g;bz};$b;P;D' test.txt > test2.txt
Label too long: h;:z;$b;N;/\(DD\)\n\1$/{g;bz};$b;P;D
de plus, pourrais-tu développer le contenu de la commande ?
je sais, je suis chiant mais j'aime comprendre ce que je fais :P pour ne plus avoir à redemander après ;)
D'avance, merci.
Label too long: h;:z;$b;N;/\(DD\)\n\1$/{g;bz};$b;P;D
Ça c'est bizarre dans la mesure ou le label (étiquette) ne contient qu'une lettre (z) ;-\
Quelle version de "sed" ?
Concernant les explications, tu peux les trouver dans le "info sed" (si les pages infos sont installées sur ton système), sinon ça s'explique comme ça :
Ça c'est bizarre dans la mesure ou le label (étiquette) ne contient qu'une lettre (z) ;-\
Quelle version de "sed" ?
Concernant les explications, tu peux les trouver dans le "info sed" (si les pages infos sont installées sur ton système), sinon ça s'explique comme ça :
h # mettre le contenu de l'espace de travail dans la mémoire annexe :z # étiquette (label) $ b # si la dernière ligne est atteinte, se brancher à la fin du script N # ajouter la ligne suivante dans l'espace de travail /\(DD\)\n\1$/ { # si l'espace de travail ressemble comme 2 gouttes d'eau à #+ DD suivi d'un saut de ligne (\n) et suivi par DD (\1) est en fait la #++ représentation de la 1ère sous-expression (\...\) g # l'écraser en remettant le contenu de la mémoire annexe b z # se brancher à l'étiquette "z" } # fin du groupement de commande $ b # si la dernière ligne est atteinte, se brancher à la fin du script P # envoyer sur la sortie standard le contenu de l'espace de travail #+ compris entre le début et le premier caractère représentant #++ un saut de ligne (\n) D # effacer le contenu de l'espace de travail #+ compris entre le début et le premier caractère représentant #++ un saut de ligne (\n)
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question