Petit coup de main en bash(lignes dupliquées) Résolu

Question

Bonjour tout le monde,

voilà j'ai à ma disposition un fichier contenant ce genre de choses :

CYS A 61 - CYS A 335
CYS A 229 - CYS A 213
CYS A 219 - CYS A 214
CYS A 214 - CYS A 219
CYS A 254 - CYS A 304
CYS A 304 - CYS A 254
CYS A 213 - CYS A 229
CYS A 335 - CYS A 61

Il y a 8 lignes mais en fait chaque ligne est "dupliquée" mais pas à l'identique. Je m'explique : 
CYS A 61 - CYS A 335  = CYS A 335 - CYS A 61
CYS A 229 - CYS A 213 = CYS A 213 - CYS A 229
...etc

Il n'y a donc que 4 lignes informatives... le reste ne sert pas.

Donc ce que j'aimerais faire c'est ne garder qu'une occurence sur deux, à savoir :
CYS A 61 - CYS A 335
CYS A 229 - CYS A 213
CYS A 219 - CYS A 214
CYS A 254 - CYS A 304

vous pensez que c'est faisable en bash ? 

d'avance merci ;)

Shagg

vignemail1 · Answer

Un truc que tu peux faire, c'est faire une boucle qui met le plus petit en premier (CYS A 229 - CYS A 213 => CYS A 213 - CYS A 229) puis passé le résultat dans la commande unique qui supprime les doublons
Pour mettre le plus petit en premier, tu peux voir avec awk

Shaggy_2_Dope · Answer

merci pour la piste vignemail1 ;)
J'ai procédé de la façon suivante (ce n'est pas la plus élégante je le conçois...) :

soit nb_cyx = nb de lignes dans le fichier ss.dat



for i in $(seq 1 ${nb_cyx});
		do	
		sed -n "${i} p" ss.dat | awk '{print $3,$7}' | tr -s ' ' '
 ' | sort -n | tr -s '
' ' ' >> ss.dat.tmp
		echo ' '  >> ss.dat.tmp
		done
		
cat ss.dat.tmp | awk '{if (x[$0] !="") next ; print $0; x[$0]=$0}' > ss.dat.reor


et voili :)

Shagg

Petit coup de main en bash(lignes dupliquées)

2 réponses

Discussions similaires

Newsletters