extraction texte sur plusieurs lignes en Perl Résolu

Question

Bonjour, je souhaiterais pouvoir recuperer une partie du texte qui se trouve dans un fichier dont la structure est la suivante : ... TOPO_DOM 24-247 224 Extracellular (Potential)
QFHGEKGISI PDHGFCQPIS IPLCTDIAYN QTIMPNLLGH TNQEDAGLEV HQFYPLVKVQ CSPELRFFLC SMYAPVCTVL EQAIPPCRSI CERARQGCEA LMNKFGFQWP ERLRCEHFPR HGAEQICVGQ NHSEDGAPAL LTTAPPPGLQ PGAGGTPGGP GGGGAPPRYA TLEHPFHCPR VLKVPSYLSY KFLGERDCAA PCEPARPDGS MFFSQEETRF ARLW TRANSMEM 248-268 21 1 (Potential)
ILTWSVLCCA STFFTVTTYL V TOPO_DOM ... La partie qui m'interesse est la chaine de caractere en majuscule située près de l'expression "Extracellular (Potential)", et qui se termine juste avant la balise "". comme elle est sur plusieurs lignes, je ne sais pas trop comment faire. Merci de votre aide !

lami20j · Answer

Salut, #!/usr/bin/perl use strict;use warnings; while(){print if /Extracellular/ ... /<\/tt/} __END__ TOPO_DOM 24-247 224 Extracellular (Potential)
QFHGEKGISI PDHGFCQPIS IPLCTDIAYN QTIMPNLLGH TNQEDAGLEV HQFYPLVKVQ CSPELRFFLC SMYAPVCTVL EQAIPPCRSI CERARQGCEA LMNKFGFQWP ERLRCEHFPR HGAEQICVGQ NHSEDGAPAL LTTAPPPGLQ PGAGGTPGGP GGGGAPPRYA TLEHPFHCPR VLKVPSYLSY KFLGERDCAA PCEPARPDGS MFFSQEETRF ARLW TRANSMEM 248-268 21 1 (Potential)
ILTWSVLCCA STFFTVTTYL V TOPO_DOMOn obtiensroot@debian:~# perl ccm.pl Extracellular (Potential)
QFHGEKGISI PDHGFCQPIS IPLCTDIAYN QTIMPNLLGH TNQEDAGLEV HQFYPLVKVQ CSPELRFFLC SMYAPVCTVL EQAIPPCRSI CERARQGCEA LMNKFGFQWP ERLRCEHFPR HGAEQICVGQ NHSEDGAPAL LTTAPPPGLQ PGAGGTPGGP GGGGAPPRYA TLEHPFHCPR VLKVPSYLSY KFLGERDCAA PCEPARPDGS MFFSQEETRF ARLW Il te reste à supprimer les balises de début est fin. Je n'ai pas le temps d'entrer dans les détails, je suis au boulot ;-)

lami20j · Answer

Tiens une autre version #!/usr/bin/perl use strict;use warnings; my @tab; while(){push @tab,$_ if /Extracellular/ ... ///g } @tab; print "@tab "; __END__ TOPO_DOM 24-247 224 Extracellular (Potential)
QFHGEKGISI PDHGFCQPIS IPLCTDIAYN QTIMPNLLGH TNQEDAGLEV HQFYPLVKVQ CSPELRFFLC SMYAPVCTVL EQAIPPCRSI CERARQGCEA LMNKFGFQWP ERLRCEHFPR HGAEQICVGQ NHSEDGAPAL LTTAPPPGLQ PGAGGTPGGP GGGGAPPRYA TLEHPFHCPR VLKVPSYLSY KFLGERDCAA PCEPARPDGS MFFSQEETRF ARLW TRANSMEM 248-268 21 1 (Potential)
ILTWSVLCCA STFFTVTTYL V TOPO_DOM Le résultatroot@debian:~# perl ccm.pl Extracellular (Potential)QFHGEKGISI PDHGFCQPIS IPLCTDIAYN QTIMPNLLGH TNQEDAGLEV HQFYPLVKVQ CSPELRFFLC SMYAPVCTVL EQAIPPCRSI CERARQGCEA LMNKFGFQWP ERLRCEHFPR HGAEQICVGQ NHSEDGAPAL LTTAPPPGLQ PGAGGTPGGP GGGGAPPRYA TLEHPFHCPR VLKVPSYLSY KFLGERDCAA PCEPARPDGS MFFSQEETRF ARLW

gingerbrice · Answer

Super je devrai arriver à me debrouiller avec ça. 
Merci bcp lami20j !
je mettrai le sujet en résolu quand j'aurai fini de traiter mes fichiers.

gingerbrice · Answer

Donc le code qui ma permis de resoudre mon probleme est my @tab; while(){push @tab,$_ if /Extracellular/ ... ///g } @tab; print "@tab "; Encore merci lami20j

Mortagus · Answer

bonjour a tous,

j'ai un problème similaire a notre ami gingerbrice:

voici mon texte :

ID   Q8VLP7_STRAG            Unreviewed;       544 AA.
AC   Q8VLP7;
DT   01-MAR-2002, integrated into UniProtKB/TrEMBL.
DT   01-MAR-2002, sequence version 1.
DT   09-FEB-2010, entry version 23.
DE   SubName: Full=Group B streptococcus secreted protein;
DE   Flags: Precursor;
GN   Name=bsp;
OS   Streptococcus agalactiae sophisticae ultrae compilatum (message entre
OS   parentheses).
OC   Bacteria; Firmicutes; Lactobacillales; Streptococcaceae;
OC   Streptococcus.
OX   NCBI_TaxID=1311;
la partie en gras est le texte qui m'interresse. J'aimerais bien utiliser uniquement les regex afin de pouvoir extraire cette partie de texte. Tout en sachant qu'il me faut que les informations des lignes commençant par le même "identifiant".

J'ai pondu ceci : (.?OS   (.*)
?)+\.

mais ça ne me permet pas d'avoir que le texte sans les à coté.

Pouvez-vous m'aider ?

Extraction texte sur plusieurs lignes en Perl

5 réponses

Discussions similaires

Newsletters