problème argument pour grep et boucle for Résolu

Question

Bonjour, 
Je travaille sous unix (plus précisément sur le terminal sur un mac) pour modifier des fichiers texte contenant des données issues de GenBank (des données de séquençage ADN... enfin peu importe).
Mon problème est le suivant :
 - j'ai un fichier texte de la forme : 

>GENRE1espèces1|(plein d'infos pas utiles)|co1(nom du gène)
acgtcgcgatcgagagatctctagagctctgagatcgagct
acgatatatgcgcgacgatagatatcggatcg
......
>GENRE1espèces2|(plein d'infos pas utiles)|co1
......
>GENRE2espèces1|(plein d'infos pas utiles)|co1
......


Le saut de ligne est le même dans le fichier. (je vous ai évité le nom de genre et d'espèce des bestioles pour un souci de clarté)

Et j'aimerais créer un fichiers (à partir de celui-la) pour chaque GENRE répertoriant toutes les séquences (acgtgtg...) appartenant à ce genre et donc obtenir plusieurs fichiers du type :

GENRE1
séquences1-acgtgagtgc
séquences2-accggggtgtgt
........

Et dernière chose j'aimerais ajouter une même dernière ligne à tous ces fichiers, cette ligne, contenu dans un fichier (donc avec une seule ligne), étant une séquence de référence pour le genre.

Étant débutant en programmation shell unix, je pense qu'il faudrait utiliser une voir plusieurs boucles for ainsi que des grep à tout va mais c'est dans l'argumentation propre des lignes de commandes que je bute.

J'espère avoir été assez clair, merci d'avance de vous prendre la tête avec moi ;).

dubcek · Answer

hello quelque chose comme ça ? $ cat f1 >GENRE1espèces1|(plein d'infos pas utiles)|co1(nom du gène) acgtcgcgatcgagagatctctagagctctgagatcgagct acgatatatgcgcgacgatagatatcggatcg ...... >GENRE1espèces2|(plein d'infos pas utiles)|co1 xxxxx ...... >GENRE2espèces1|(plein d'infos pas utiles)|co1 zzzzz ...... $ cat f2 hello world $ awk -F"[>|]" '/^>GENRE/ {nom=$2 ; next} {print $0 > nom}' f1 ; ls GEN* | xargs -I{} sh -c 'cat f2 >> {}' $ head GENRE* ==> GENRE1espèces1 <== acgtcgcgatcgagagatctctagagctctgagatcgagct acgatatatgcgcgacgatagatatcggatcg ...... hello world ==> GENRE1espèces2 <== xxxxx ...... hello world ==> GENRE2espèces1 <== zzzzz ...... hello world $

ONI · Answer

Hug,


Pour f1 et f2 ouais c'est dans ce genre la, mais pour le reste nan ^^.
En fait, je voudrais tomber à la fin sur un fichier par genre, donc :
-------------------fichier 1----------------------
GENRE1
espèce1 - acgt...
espèce2 - agtc...
...
hello world
-------------------fichier 2----------------------
GENRE2
espèce1 - atgc...
espèces2 - agtc...
...
hello world

etc

Merci pour ta réponse rapide en tout cas ^^.

NB: j'ai rien compris à cette ligne de commande XD : $ awk -F"[>|]" '/^>GENRE/ {nom=$2 ; next} {print $0 > nom}' f1 ; ls GEN* | xargs -I{} sh -c 'cat f2 >> {}'

dubcek · Answer

comme ça ? $ cat f1 >GENRE1espèces1|(plein d'infos pas utiles)|co1(nom du gène) acgtcgcgatcgagagatctctagagctctgagatcgagct acgatatatgcgcgacgatagatatcggatcg ...... >GENRE1espèces2|(plein d'infos pas utiles)|co1 xxxxx ...... >GENRE2espèces1|(plein d'infos pas utiles)|co1 yyyyyy ...... >GENRE2espèces2|(plein d'infos pas utiles)|co1 zzzzz ...... $ $ awk -F"[>|]" '/^>GENRE/ {nom=$2 ; sub("esp.*", "", nom) ; esp=$2 ; sub("G[A-Z]*[1-9]", "", esp) ; next} {print esp " - " $0 > nom}' f1 ; ls GEN* | xargs -i sh -c 'cat f2 >> {}' $ $ head GENR* ==> GENRE1 <== espèces1 - acgtcgcgatcgagagatctctagagctctgagatcgagct espèces1 - acgatatatgcgcgacgatagatatcggatcg espèces1 - ...... espèces2 - xxxxx espèces2 - ...... hello world ==> GENRE2 <== espèces1 - yyyyyy espèces1 - ...... espèces2 - zzzzz espèces2 - ...... hello world $ $

ONI · Answer

C'est quasiment ça.

Me faudrait :
==> GENRE1 <==
espèces1 - acgtcgcgatcgagagatctctagagctctgagatcgagct
acgatatatgcgcgacgatagatatcggatcg
......
espèces2 - xxxxx
......
hello world

En fait pas la répétition de "espèce*" parce que :

>GENRE1espèces1|(plein d'infos pas utiles)|co1(nom du gène)
acgtcgcgatcgagagatctctagagctctgagatcgagct
acgatatatgcgcgacgatagatatcggatcg
...... est la séquences entière qui se retrouve coupée en lignes dans mon fichier texte original.

Après j'espère que mon logiciel d'alignement de séquences (seaview) comprendra ce format. Si c'est pas le cas je pense que remettre la totalité de la séquence sur la mm ligne (mais ça non plus je vois pas comment faire).

dubcek · Answer

$ cat f1 >GENRE1espèces1|(plein d'infos pas utiles)|co1(nom du gène) acgtcgcgatcgagagatctctagagctctgagatcgagct acgatatatgcgcgacgatagatatcggatcg ...... >GENRE1espèces2|(plein d'infos pas utiles)|co1 xxxxx XXXXXXXX...... >GENRE2espèces1|(plein d'infos pas utiles)|co1 yyyyyy YYYYYYYY >GENRE2espèces2|(plein d'infos pas utiles)|co1 zzzzz ZZZZZZZZZZ $ $ awk -F"[>|]" '/^>GENRE/ {nom=$2 ; sub("esp.*", "", nom) ; esp=$2 ; sub("G[A-Z]*[1-9]", "", esp) ; x=" - " ; next} {print esp x $0 > nom ; x=esp="" }' f1 ; ls GEN* | xargs -i sh -c 'cat f2 >> {}' $ $ head GENR* ==> GENRE1 <== espèces1 - acgtcgcgatcgagagatctctagagctctgagatcgagct acgatatatgcgcgacgatagatatcggatcg ...... espèces2 - xxxxx XXXXXXXX...... hello world ==> GENRE2 <== espèces1 - yyyyyy YYYYYYYY espèces2 - zzzzz ZZZZZZZZZZ hello world $

ONI · Answer

Alors oui c'est ça ^^, par contre je sais pas si ta ligne de commande me créé un fichier pou chaque genre.

Il y a une autre étape pour faire ça bien. 

Voilà à ce quoi ressemble mon fichier original pour les 3 premières séquences, il y en a un nombre assez important.

>TRIAENODEStardus|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_JF434447|co1
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcaaatttataatgtaatagttactgctcatgcttttat
tataattttttttatagtaatacctataataattggaggatttggaaattgactaattcc
tttaatactaagatgtcctgatatagcttttcctcgaataaataatataagattttgatt
acttccaccatctttaaattttcttttattaagaagattagtggaaagaggaacaggaac
tggttgaactgtctatcctccacttgcaagaacagtaggacatataggaagttctgtaga
tttatcaattttttctcttcatatagctggtatctcttctattttaggggctattaattt
tattactacttgtataagaataaaaccaataggtataaatttagatcaaatacccttatt
tgtttgatcagttttaattactgcattattacttctcttatctttaccagtcttagccgg
agctattacaatattattaacagatcgtaatcttaatacatctttttttgaccctgccgg
gggaggagaccctattttatatcaacatttattt
>HYDROPSYCHEplacoda|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_JF434387|co1
aacactttacttcatatttggaatttgatccggtcttattggatcttctataagatttat
tattcgaatagaactaagaactccagatagttttattggcaatgatcaaatttataatgt
tatcgttacatctcatgcatttattataattttctttatagtaatacccattataatcgg
aggatttggaaattgactagtccctcttatacttggatcccctgatatagcattccctcg
aataaacaatctaagattttgatttttacccccatctttaacatttctattattaagaag
aataactaattcaggagctgggacaggttgaacagtctatccccctttatcatcaaattt
atctcacgcaggaagatctgttgatttaactattttttcccttcatatagcaggaatttc
ttctattttaggagcaattaacttcatttctactattataaatataaaatttaaaaattt
aaattatgaaataattcctcttttcgtctgatctatcttaatcacagctgtattactttt
actatctttaccagtattggctggagccatcacaatattattaactgatcgtaatcttaa
tacttctttctttgaccctgcgggagggggagacccaattctatatcaacatttattt
>CHIMARRAobscura|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_JF434187|co1
aaccttgtattttatttttggcctttgatcaagaatattaggtctatctctaagaatact
tatccgtttagaacttagaactccaggagctttaattggaaatgatcaaatctttaattc
tattgtaactgcccatgcatttattataattttttttatagtaatacccatcataattgg
ggggtttggaaactgattggtcccactaatactaggagcaccagacatagccttccctcg
aataaataatataagattttgatttttgcccccttcattgttctttcttttattcagaat
acttatagataatgggactggaacaggatggaccgtttacccccccctctctgcaaatat
ttcccatataggaaaagctgtagatttaacaatcttctcattacacttagcaggaatttc
atcaattttaggagctgttaattttatttcaacaattattaacatacgtttaaatttcct
tacatttgatcaattaccactgtttgtttgatcagtaataattactgctattctcctctt
actttctcttcctgtattagcaggagctatcactatattattaacagatcgaaatataaa
tacttccttttttgatcctgctggaggaggggatccaattctataccagcacttattc

En gras c'est les nom de genre, en souligné les espèces et en italique les séquences. 

Il y a plusieurs séquences d'espèces différentes mais d'un même genre et justement j'aimerais obtenir un fichier pour chaque genre contenant toutes les séquences des espèces appartenant à ce genre.

dubcek · Answer

j'avais pris les mots GENRE et especes litteralement.essayer ça
$ awk -F"[>|]" '/^>[A-Z]/ {nom=$2 ; sub("[a-z].*", "", nom) ; esp=$2 ; sub("^[A-Z]*", "", esp) ; x=" - " ; next} {print esp x $0 > nom ; x=esp="" }' fichier ; ls [A-Z]* | xargs -i sh -c 'cat f2 >> {}'
$ ls
CHIMARRA  HYDROPSYCHE  TRIAENODES 
$

ONI · Answer

Merci beaucoup, je vais tester ça ce WE, je viendrais dire si j'ai réussi \o/ ou non /o\.

ONI · Answer

Re bonjour,
Alors j'ai lancé la ligne de commande et ça a presque marché comme voulu sauf que j'ai eu le message d'erreur suivant et il me manque pas mal de genres ainsi que des espèces (+ séquences) dans les fichier de genre créés.

macbook-de-admin-5:co1 User$ awk -F"[>|]" '/^>[A-Z]/ {nom=$2 ; sub("[a-z].*", "", nom) ; esp=$2 ; sub("^[A-Z]*", "", esp) ; x=" - " ; next} {print esp x $0 > nom ; x=esp="" }' co1.txt ; ls [A-Z]* | xargs -i sh -c 'cat Tref.fasta >> {}'
awk: WORMALDIA makes too many open files
 input record number 830, file co1.txt
 source line number 1
xargs: illegal option -- i
usage: xargs [-0opt] [-E eofstr] [-I replstr [-R replacements]] [-J replstr]
             [-L number] [-n number [-x]] [-P maxprocs] [-s size]
             [utility [argument ...]]

Mais la forme de sorti est bien celle attendu.

dubcek · Answer

essayer ça :
il n'y a plus de xargs, il y a un close qui devrait éviter le too many open files
le fichier f2 contient la ligne à ajouter, le fichier f3 les données
$ awk -F"[>|]" -v t="$(cat f2)" '/^>[A-Z]/ {p=0 ; if(n){print  t > n ; close(n)} n=e=$2 ; sub("[a-z]*$", "", n) ; sub("^[A-Z]*", "", e) ; e=e " - "} p++ {print e $0 > n ; e="" }  END{print t > n}' f3 
$

ONI · Answer

Alors j'ai l'impression que ça me fait tous les genres, mais j'ai qu'une seule séquence par genre et j'ai des fichiers du genre : BRACHYCENTRUSsp.07EVBAR-0021 en plus du simple fichier BRACHYCENTRUS.

ONI · Answer

Et en fait la ligne que j'ai a rajouter à chaque fois c'est pas juste une ligne, je me suis planté, c'est un fichier contenant ça :

>gb|AY396143.1|:1-1567 Lepidostoma flavum cytochrome oxidase subunit I (COI) and cytochrome oxidase subunit II (COII) genes, partial cds; mitochondrial genes for mitochondrial products
actgcatctctgagagagctagctctcgaacagcttacag.....

dubcek · Answer

le fichier f2 peut contenir plusieurs lignes à ajouter, pas de problèmes
je me basais sur les majuscules pour le nom et des minuscules pour l'espèce.
donc il peut avoir un nom et plusieurs espèces ?
BRACHYCENTRUSxxxxxxx et BRACHYCENTRUSzzzzzzzzzz et dans le fichier BRACHYCENTRUS il doit y avoir xxxx et zzzz ?

ONI · Answer

Ok.

Oui c'est ça il y plusieurs espèces avec le même nom de genre, ça l'avait bien fait dans ton avant dernière ligne de commande (enfin pas pour toutes les espèces).

dubcek · Answer

essayer ca: 
j'ai remis le xargs mais avec une autre option ca devrait passer, j'ai du enlever le close, puisque un fichier peut etre accédé plusieur fois. Sur Mac (si tu es sur Mac ? ) n'y a-t-il par un autre awk, tel que nawk ou gawk ? 
$ awk -F"[>|]" '/^>[A-Z]/ {p=0 ; n=e=$2 ; sub("[^A-Z].*$", "", n) ; sub("^[A-Z]*", "", e) ; e=e " - "} p++ {print e $0 > n ; e="" }' f3 ; ls [A-Z]* | xargs -I{} sh -c 'cat f2 >> {}'

dubcek · Answer

ONI · Answer

Donc oui je suis sur mac et j'ai pas trouvé de n ou gawk.

Pour la ligne de commande ça m'a fait la même erreur que :
awk -F"[>|]" '/^>[A-Z]/ {nom=$2 ; sub("[a-z].*", "", nom) ; esp=$2 ; sub("^[A-Z]*", "", esp) ; x=" - " ; next} {print esp x $0 > nom ; x=esp="" }' fichier ; ls [A-Z]* | xargs -i sh -c 'cat f2 >> {}'

C'est à dire que tous les genres ne sont pas fait et qu'il manque des espèces pour les gens fait.

dubcek · Answer

quelle même erreur : too many open files ?
compte le nombe de fichiers à créer, voir post #16

dubcek · Answer

on compte chaque genre pour ne fermer que les fichiers genres présents qu'une fois, ca devrait faire moins de fichiers ouverts.
mettre ce code dans fichier.awk
BEGIN{while("cat f3" | getline)
        {if($0 ~ /^>[A-Z]/){a=$0; sub(">", "", a);sub("[^A-Z].*$", "", a) ; x[a]++ }}}
/^>[A-Z]/ {p=0 ; if(n && (x[n]<2))close(n) ; n=e=$2 ; sub("[^A-Z].*$", "", n) ; sub("^[A-Z]*", "", e) ; e=e " - "}
p++ {print e $0 > n ; e="" }et exécuterawk -F"[>|]" -f fichier.awk f3 ; ls [A-Z]* | xargs -I{} sh -c 'cat f2 >> {}'

ONI · Answer

Voilà pour les comptages :
compter le nombre de fichiers à créer: 
$ grep -o '^>[A-Z]*' f3 | sort -u | wc -l --> 52
compter le nombre de fichiers accédés plusieurs fois 
$ grep -o '^>[A-Z]*' f3 | sort | uniq -d | wc -l --> 41

Et pour l'erreur c'est la même que la première avec le xargs et le fait qu'il manque des genres.

Si tu veux je peux t'envoyer mes fichiers pour que tu vois concrètement à quoi ça ressemble.

ONI · Answer

Je viens de lancer tes dernières lignes de codes (en changeant les f2 et f3 dans les 2 lignes) et ça me créer des fichiers quasiment bons mais il manque encore des genres plus l'affichage d'une erreur :

umr5023bel05port:co1 mguenier$ awk -F"[>|]" -f fichier.awk co1.txt ; ls [A-Z]* | xargs -I{} sh -c 'cat bla >> {}'
awk: CERACLEA makes too many open files
 input record number 806, file co1.txt
 source line number 4


Cependant là j'ai plusieurs espèces par genre comme attendu.

dubcek · Answer

il faudrait compter les genres pour voir à combien arrive le too many ...
https://forums.commentcamarche.net/forum/affich-24824669-probleme-argument-pour-grep-et-boucle-for?full#16

ONI · Answer

J'ai fait un post (plus tôt) où je te donnais le résultats des comptages ^^.

dubcek · Answer

désolé, je l'avais raté
Si tu veux je peux t'envoyer mes fichiers pour que tu vois concrètement à quoi ça ressemble.
volontier parce je vois mal le too many open files avec ces petits nombres.
chez moi, la limite est 1022

ONI · Answer

Je te l'envoi comment (mail, skype etc...)?

dubcek · Answer

regarder là : https://www.commentcamarche.net/faq/2966-envoyer-des-fichiers-lourds-pieces-jointes-par-e-mail 
et tu peux mettre le lien ici ou l'envoyer en message privé

ONI · Answer

http://dl.free.fr/oNxEURaNU

Alors ceci c'est mon fichier principal avec toutes les informations : noms de genre, noms d'espèce et séquences.

 http://dl.free.fr/vXFfU62QJ

Et ceci c'est le fichier qui est à rajouté à la fin de chaque fichier de genre.

dubcek · Answer

essayer ce code:  
/^>[A-Z]/       {p=0 ;  n=e=$2 ; sub("[^A-Z].*$", "", n) ; sub("^[A-Z]*", "", e) ; e=e " - "}  
p++             {print e $0 >> n ; close(n) ; e="" }avec$ awk -F"[>|]" -f fichier.awk co1.txt ; for f in [A-Z]*[A-Z] ; do cat Tref.fasta >> $f;done- une boucle remplace le xargs  
- le awk fait un close à chaque print donc c'est plus long  
- il ajoute toujours aux fichiers, donc il faut les supprimer avant de réexécuter

edit: j'ai enlevé la ligne BEGIN {..} elle est inutile

ONI · Answer

le fichier.awk c'est le même que précédemment?

ONI · Answer

La première ligne ne marche pas et m'affiche cette erreur :

umr5023bel05port:co1 mguenier$ /^>[A-Z]/{p=0 ;  n=e=$2 ; sub("[^A-Z].*$", "", n) ; sub("^[A-Z]*", "", e) ; e=e " - "}  p++ {print e $0 >> n ; close(n) ; e="" }
-bash: syntax error near unexpected token '"[^A-Z].*$",'

ONI · Answer

\o/ je pense que c'est bon ^^. J'ai 52 fichier de Genre et dedans j'ai toutes les espèces (vérifié pour les 2 premiers genres). 

Merci infiniment tu m'aides gavé ^^, j'espère juste que mon soft va pouvoir lire ça sans problème.

Il faut que je fasse la même manip pour un autre groupe de bestioles, le type de fichier change pas, mais le contenu si (nom de genre etc...) je suppose que ça posera pas de problème vu que la recherche se fait sur n'importe quelle majuscule?

Juste par curiosité et parce que j'aime pas trop faire des trucs que je ne comprend pas tu pourrais m'expliquer la signification et le rôle des différents arguments utilisés (si ça te déranges pas ^^).

Je te tiens au courant pour le fait de savoir si ça marche avec mon soft ou pas.

Encore merci.

ONI · Answer

Damned, mon soft les aime pas, mais je pense savoir pourquoi :

Le fichier est du genre ;
Nom de l'espèces - acgatctatcatcagagagctatagctcg......

Et je pense que le soft comprendrait :
Nom de l'espèces 
acgatctatcatcagagagctatagctcg......

En gros, le nom et la séquence pas sur la même ligne.

dubcek · Answer

changer  e=e " - " par e=e "
"

ONI · Answer

Ok, nikel, mais ça n'a pas réglé le problème. Pour que le soft prenne c'est lignes comme des séquences il faut que le fichier ressemble à ça :

>Nom de l'espèces 
acgatctatcatcagagagctatagctcg...... 

Donc il faut juste rajouté un ">" avant chaque nom d'espèce. Je ne vois pas où le placer précisément dans les arguments de fichier.awk.

dubcek · Answer

changer e=e "
" par e=">" e "
"
on aura donc >espèce[saut de ligne] 
c'est de la concaténation de strings

ONI · Answer

Ok parfait, le soft les lis. Seul bémol c'est que il y a des séquences qui s'affichent pas dans mon soft, mais c'est pas une question de prog je pense.

Je tiens vraiment à te remercier, j'aurais jamais pu faire ça seul ^^.

dubcek · Answer

v'la la doc. n'hésite pas à demander.
awk -F"[>|]"       # on definit > et | comme séparateurs

/^>[A-Z]/  # on ne traite que les lignes qui commencent par >[majuscule]
{p=0               # p est un compteur qui permet de sauter la ligne contenant print 1 seule fois
n=e=$2             # n et e valent $2, donc par ex. TRIAENODEStardus, le texte entre > et |
sub("[^A-Z].*$", "", n)    # on supprime tout ce qui n'est pas majuscule jusqu'à la fin, on a le genre
sub("^[A-Z]*", "", e)      # on supprime les majuscules du début, on a l'espèce
e=">" e "
" }             # on ajoute un séparateur à l'espèce

p++        # si p n'est pas nul, donc on ignore les lignes >XXXX, on lit toutes les autres lignes tttatcaattttttctc....
{print e $0 >> n ; close(n)        # on ajoute l'espèce, puis la ligne ($0) et on ferme le flux, qui sera re-ouvert au prochain print
e="" }             # on efface l'espèce, de sorte qu'elle ne s'affiche qu'une seule fois pour un genre

for f in [A-Z]* ; do cat tref.fasta >> $f;done     # on ajoute le fichier tref.fasta à tout les fichiers qui commencent par une majuscule.

ONI · Answer

Hug,

Je reviens car j'ai un problème très con mais je l'avait pas vu venir.

Je replante le décor :
Je part d'un fichier qui ressemble à ça :

>TRIAENODEStardus|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_JF434447|co1
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcaaatttataatgtaatagttactgctcatgcttttat

>HYDROPSYCHEplacoda|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_JF434387|co1
aacactttacttcatatttggaatttgatccggtcttattggatcttctataagatttat

Pour arriver à des fichiers comme ça :

fichier 1
>tardus
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcaaatttataatgtaatagttactgctcatgcttttat

fichier 2
>placoda
aacactttacttcatatttggaatttgatccggtcttattggatcttctataagatttat

Le problème c'est que je me retrouve avec des fichiers du genre :

>tardus
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcgc
>tardus
tcaggatcattaattaaaaatgatcaaatttataatgtaatagttactgctcatgcttttat
>tardus
ttctttaagagtaataattcgaactgaattaggttcagtaggatcattaattaaaaatga
tcaaatttataatgtaatagttactgctca

Parce qu'en fait j'ai différentes séquences d'une même espèce,  mais à la fin de mes analyses j'ai besoin de les identifier une à une.
Donc j'ai 2 options je pense : 

       - soit je garde le nom complet devant chaque séquences et avoir un fichier du genre :

>TRIAENODEStardus|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_JF434447|co1
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcaaatttataatgtaatagttactgctcatgcttttat
>TRIAENODEStardus|UNKNOWN_0003215_USA:TEXAS,WELLINGTON,ELORA,NEARncbi_546857874|co1
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcaaatttataatgtaatagttactgctcatgcttttat

      - soit j'arrive à rajouté un caractère unique qui me permette de discriminer les séquences d'une même espèce :

>tardus1
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcgcttttat
>tardus2
tcaggatcattaattaaaaatgatcaaatttataatgtaatagttactgctcatgcttttat
>tardus3
ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt
aggatcattaattaaaaatgatcaaatttataatgtaatagttactgctca

dubcek · Answer

essayer ça 
$ grep tardus  TRIAENODES 
tardus1 - ttgatctggattactaggaacatctttaagagtaataattcgaactgaattaggttcagt 
tardus2 - aacactatattttatttttggtgcttgatctggattactaggaacatctctaagagtaat 
tardus3 - aacactatattttatttttggtgcttgatctggattactaggaacatctctaagagtaat 
tardus4 - aacactatattttatttttggtgcttgatctggattactaggaacatctttaagagtaat 
... 
$ cat f1.awk 
/^>[A-Z]/ {p=0 ;  if(n && (x[n]<2))close(n) ; n=e=$2 ; sub("[^A-Z].*$", "", n) ; sub("^[A-Z]*", "", e) ; e=e sprintf("%d", ++x[e]) " - " } 
p++  {print e $0 >> n ; close(n) ; e="" } 
$

dubcek · Answer

deuxième choix 
$ grep tardus  TRIAENODES 
>TRIAENODEStardus|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_JF434447|co1 
>TRIAENODEStardus|UNKNOWN_000000_USA:WASHINGTON,WHATCOMCO.,W.FERNDALE,L.ncbi_HM103311|co1 
>TRIAENODEStardus|UNKNOWN_000000_USA:MINNESOTA,OLMSTEAD,NORTHBRANCH,ROOTncbi_HM103309|co1 
>TRIAENODEStardus|UNKNOWN_000000_CANADA:ONTARIO,WELLINGTON,ELORA,NEARncbi_HM103312|co1 
.... 
$  cat f1.awk 
/^>[A-Z]/ {p=0 ; n=$2 ; sub("[^A-Z].*$", "", n) ; e=$0 "
"} 
p++  {print e "
" $0 >> n ; close(n) ; e="" } 
$

ONI · Answer

Nikel, intervention parfaite ^^. J'ai opté pour la première solution et j'ai juste changé le e=e en e=">" e pour garder le > devant les noms

Je te remercie beaucoup, et ta vitesse de réponse est impressionnante ^^.

Problème argument pour grep et boucle for

41 réponses

Votre réponse

Discussions similaires

Newsletters