Traitements de fichiers en python

Fermé
Bobo56 Messages postés 1 Date d'inscription dimanche 19 janvier 2014 Statut Membre Dernière intervention 19 janvier 2014 - 19 janv. 2014 à 22:05
Bonsoir tout le monde!
Je suis étudiant en biotechnologies à Paris et j'ai un DM à rendre pour ce soir minuit (oui, je sais je m'y prends un peu au dernier moment ^^) et je n'arrive pas une question qui peut vous paraître toute bête:

Le format FASTA est format de ?chier utilisé en bio-informatique pour stocker des séquences.
Un ?chier peut contenir plusieurs séquences.
Un ?chier FASTA est composé au minimum de deux lignes. La ligne 1 décrit la séquence
en commençant par le signe ">" suivi immédiatement de l'identi?ant de la séquence
et d'un commentaire séparé de l'identi?ant par un espace. Les séquences peuvent se
prolonger sur plusieurs lignes : ces ligne possèdent cependant une longueur maximale
de 120 résidus. Les séquences peuvent être séparées par une ou plusieurs lignes vides.
Ainsi un ?chier FASTA se présente sous la forme suivante (les X représentant acides nucléiques ou aminés) :

>Identifiant Commentaire
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Écrire la fonction loadFasta(filename: string) -> list of tuple qui prend en entrée un
nom de ?chier et renvoie une liste composée des couples (identi?ant, séquence). On supposera que le ?chier fasta est toujours bien formé.
Par exemple, soit le ?chier seqs.fasta dont le contenu est :
>prems commentaire
ATCGTTCAGTA
>second mon second commentaire
ATCCTACGAATCATCCA
CGCGGGCTCGCGACCAG
AAAATGCACAGCAGACA
GAT
>>> loadFasta("seqs.fasta")
[ ("prems", "ATCGTTCAGTA"),
("second", "ATCCTACGAATCATCCACGCGGGCTCGCGACCAGAAAATGCACAGCAGACAGAT") ]

Note : l'utilisation de BioPython n'est pas autorisée

Un grand merci pour votre aide ^^
A voir également: