Script Shell pour extraire des séquences de deux fichiers
Fermé
NAGARA.Majdi
Messages postés
10
Date d'inscription
mercredi 15 juillet 2015
Statut
Membre
Dernière intervention
16 juillet 2015
-
15 juil. 2015 à 10:33
dubcek Messages postés 18744 Date d'inscription lundi 15 janvier 2007 Statut Contributeur Dernière intervention 4 septembre 2024 - 16 juil. 2015 à 16:33
dubcek Messages postés 18744 Date d'inscription lundi 15 janvier 2007 Statut Contributeur Dernière intervention 4 septembre 2024 - 16 juil. 2015 à 16:33
A voir également:
- Script Shell pour extraire des séquences de deux fichiers
- Script vidéo youtube - Guide
- Extraire une video youtube - Guide
- Extraire son video - Guide
- Wetransfer gratuit fichiers lourd - Guide
- Fusionner deux fichiers excel - Guide
2 réponses
dubcek
Messages postés
18744
Date d'inscription
lundi 15 janvier 2007
Statut
Contributeur
Dernière intervention
4 septembre 2024
5 617
Modifié par dubcek le 15/07/2015 à 11:45
Modifié par dubcek le 15/07/2015 à 11:45
hello
essayer
essayer
$ awk -F "[>|]" 'NR==FNR {t[$1]=1; next} /^>/ {t[$2]? n=1: n=0} n {print}' fichierA fichierB
>c307770_g1_i1|m.4218128 c307770_g1_i1|g.4218128 ORF c307770_g1_i1|g.4218128 c307770_g1_i1|m.4218128 type:complete len:1548 (+) c307770_g1_i1:34-4677(+)
ATGAGGGTTCTTTGGTTATCCTTGTTTGTCGTGGCCGCCTCTGGCTTTGAGGTCGGCAAG
GAGTACGTGTATAAGTACAAAGGAACACTTCACGTCGCCAACCCTGAGCAGCCCCTCCAG
GACGGTCATGAAACACAAAAACATACATGCACGGTGGAACAAGTGATCGAGGACAGTGTC
AGTAACATGTTACGTGATGTGTTGCTGTCCTTGATCACTTGTGCTGTGTGTGTGTCTCAC
TTTCATTCTGTACCTGCTTTGTCTATCCTTCAGCACATACCTGCTGGTGCTGGCATTCTT
Utilisateur anonyme
15 juil. 2015 à 11:30
15 juil. 2015 à 11:30
salut,
ça dépend de ta spécialisation.
vu la tronche du fichier, je te recommande de t'initier à
mais c'est tout à fait réalisable, simplement, avec
ça dépend de ta spécialisation.
vu la tronche du fichier, je te recommande de t'initier à
perl(que je ne connais pas), qui pourra lire les deux fichiers et faire le traitement souhaité,
mais c'est tout à fait réalisable, simplement, avec
sed, en utilisant des intervalles (cf.
man sed), dans une boucle shell
whilepour lire le premier fichier.
NAGARA.Majdi
Messages postés
10
Date d'inscription
mercredi 15 juillet 2015
Statut
Membre
Dernière intervention
16 juillet 2015
15 juil. 2015 à 12:05
15 juil. 2015 à 12:05
Merci beaucoup,
Oui effectivement je suis entrain d'apprendre le langage de programmation perl et shell.
Est ce que vous avez des toto qui peuvent m'aider.
Merci
Oui effectivement je suis entrain d'apprendre le langage de programmation perl et shell.
Est ce que vous avez des toto qui peuvent m'aider.
Merci
Modifié par NAGARA.Majdi le 15/07/2015 à 12:02
c'est vrai que le script awk Marche très bien mais j'ai un autre problème, c'est que le fichier B contient plus de nom que ce rassemble
Par exemple
Dans le fichier A on a : ce code >c106804_g1_i1|m.401123
Dans le fichier B il y a 2 codes qui commence par ">c106804_g1_i1" mais il faut tenir compte de deuxième code après la Bare "|" où il y a le "m.401123" ,qui est le bon code à chercher, et le code m.401126
>c106804_g1_i1|g.401123 ORF c106804_g1_i1|g.401123 c106804_g1_i1|m.401123 type:5prime_partial len:81 (+) c106804_g1_i1:3-245(+)
>c106804_g1_i1|m.401126 c106804_g1_i1|g.401126 ORF c106804_g1_i1|g.401126 c106804_g1_i1|m.401126 type:3prime_partial len:41 (+) c106804_g1_i1:273-392(+)
Merci beaucoup pour votre aide,
15 juil. 2015 à 15:58
15 juil. 2015 à 16:11
Aucun résultat :(
Modifié par dubcek le 15/07/2015 à 16:33
fournis des données pour tester
edit: il y a des espaces dans fichierB, essayer
Modifié par NAGARA.Majdi le 15/07/2015 à 17:19
Merci
Fichier A:
c304604_g1_i3|m.3804528
c214206_g1_i3|m.929275
c295996_g1_i1|m.2944353
Fichier B:
>c304604_g1_i3|m.3804529 c304604_g1_i3|g.3804529 ORF c304604_g1_i3|g.3804529 c304604_g1_i3|m.3804529 type:complete len:349 (-) c304604_g1_i3:938-1984(-)
ATGCCCATTCCGCCCATGCCTCCCATGCCGCCCATTCCTCCCATGCCACCCATGGCATCA
GCCTTGTCCTCCTTCGGAAGCTCTACAACAACTGCCTCGGCTGTCGTCAGGAGGGAAGCT
>c304604_g1_i3|m.3804528 c304604_g1_i3|g.3804528 ORF c304604_g1_i3|g.3804528 c304604_g1_i3|m.3804528 type:complete len:573 (+) c304604_g1_i3:270-1988(+)
ATGTACCGCCTGTGCCGTGTCGTGCCACACATGCGTGGGGCCCTGGGTCAAAGCCTGCGG
CGCCACTATGCCAAGGACATCCGCTTTGGGCCCGACGTGCGTGCCCTCATGCTCCAGGGG
ATTGAGCTCAAGGACCGCTTCCAGAATGTGGGGGCCAAGCTGGTTCAGGACGTGGCCAAC
>c304604_g1_i1|m.3804502 c304604_g1_i1|g.3804502 ORF c304604_g1_i1|g.3804502 c304604_g1_i1|m.3804502 type:complete len:377 (+) c304604_g1_i1:40-1170(+)
ATGGTGCAGGACGGCAAGACACTGAATGACGAACTGGAGGTGATTGAGGGGATGAAGTTT
GACCGTGGCTACATCTCGCCCTACTTCATCAACACGAGCAAGGGGGCCAAGGTGGAGTTCCAGGGTGAAGCACTGAGCACCCTAGTGCTGAACAGGTTGAAGGTAGGCCTCCAGGTGGCAGCA
GTGAAGGCTCCTGGTTTTGGGGACAACCGCAAGGCGACGCTCCAGGACATGGCCGTGGCC
>c304382_g1_i3|m.3778592 c304382_g1_i3|g.3778592 ORF c304382_g1_i3|g.3778592 c304382_g1_i3|m.3778592 type:5prime_partial len:1087 (+) c304382_g1_i3:3-3263(+)
AACAAATGGTCTCGCAACACCTTTCCACACAATTTCGTATTGCCAATGTTAAAAACGGCA
GCCGCAGGGCGTCGCGGCGATCAAATCAAAATGGCCACGTGCGACCGGAGGAGAGCTATG
CTCAGGCTCGTAGTGCTCTTCGTCGTGCTCGGACACGTCTCACTGGTCGACAGGTCGAAC
>c214206_g1_i3|m.929275 c214206_g1_i3|g.929275 ORF c214206_g1_i3|g.929275 c214206_g1_i3|m.929275 type:complete len:289 (-) c214206_g1_i3:302-1168(-)
ATGCACAAAGTGTCGTTGTTCCTCACAGCAGCGCTCTTATGCGCTGCTGTAGCCTTTGCG
AAGAAAGACAGTGACTCTTCGAAAGACAAAGAGAGCGTTGGAACGGTCATAGGCATTGAT
TTGGGAACGACGTATTCCTGTGTTGGCGTCTTCAAAAATGGGCGAGTGGAAATTATTGCG
>c295996_g1_i1|m.2944353 c295996_g1_i1|g.2944353 ORF c295996_g1_i1|g.2944353 c295996_g1_i1|m.2944353 type:complete len:648 (+) c295996_g1_i1:413-2356(+)
ATGGCGAAGGTGCCCGCTATTGGTATTGATCTTGGAACGACCTATTCCTGCGTTGGAGTC
TTCCAACACGGGAAGGTCGAAATCATCGCCAACGACCAAGGAAATCGTACCACGCCGAGC
TATGTCGCGTTCACGGACACGGAGCGACTCATTGGAGATGCTGCGAAGAACCAAGTGGCA
Résultat:
>c304604_g1_i3|m.3804528 c304604_g1_i3|g.3804528 ORF c304604_g1_i3|g.3804528 c304604_g1_i3|m.3804528 type:complete len:573 (+) c304604_g1_i3:270-1988(+)
ATGTACCGCCTGTGCCGTGTCGTGCCACACATGCGTGGGGCCCTGGGTCAAAGCCTGCGG
CGCCACTATGCCAAGGACATCCGCTTTGGGCCCGACGTGCGTGCCCTCATGCTCCAGGGG
ATTGAGCTCAAGGACCGCTTCCAGAATGTGGGGGCCAAGCTGGTTCAGGACGTGGCCAAC
>c214206_g1_i3|m.929275 c214206_g1_i3|g.929275 ORF c214206_g1_i3|g.929275 c214206_g1_i3|m.929275 type:complete len:289 (-) c214206_g1_i3:302-1168(-)
ATGCACAAAGTGTCGTTGTTCCTCACAGCAGCGCTCTTATGCGCTGCTGTAGCCTTTGCG
AAGAAAGACAGTGACTCTTCGAAAGACAAAGAGAGCGTTGGAACGGTCATAGGCATTGAT
TTGGGAACGACGTATTCCTGTGTTGGCGTCTTCAAAAATGGGCGAGTGGAAATTATTGCG
>c295996_g1_i1|m.2944353 c295996_g1_i1|g.2944353 ORF c295996_g1_i1|g.2944353 c295996_g1_i1|m.2944353 type:complete len:648 (+) c295996_g1_i1:413-2356(+)
ATGGCGAAGGTGCCCGCTATTGGTATTGATCTTGGAACGACCTATTCCTGCGTTGGAGTC
TTCCAACACGGGAAGGTCGAAATCATCGCCAACGACCAAGGAAATCGTACCACGCCGAGC
TATGTCGCGTTCACGGACACGGAGCGACTCATTGGAGATGCTGCGAAGAACCAAGTGGCA