Extraction des phrases contenant une structure donnée

fp -  
 fp -
Bonjour,
Je voulais savoir si qq1 pourrait m'aider à faire un code PERL pour un corpus (déjà annoté) depuis lequel je voudrais extraire uniquement les phrases qui ont la structure VB (le mot) pui AA (le mot).
Ca concerne un corpus de l'ourdou ou le VB désigne le verbe et le AA l'auxiliaire aspectuel. Par exemple:
???|KP ??|VB ???|AA ??|PP ????????|NN ???|PN ??|PN ???|NN
????|NN ?|


1 réponse


 
Bonjour fp,

Dans ta ligne d'exemple :

???|KP ??|VB ???|AA ??|PP ????????|NN ???|PN ??|PN ???|NN
????|NN ?|

- que représentent les
???
et
??
qui suivent l'espace après
VB
et
AA
, est-ce
???
pour 3 caractères et
??
pour 2 caractères, ou est-ce que cela peut être autre chose ?
- les lettres
VB
et
AA
sont-elles toujours immédiatement précédées de
|
?
- les lettres
VB
et
AA
sont-elles toujours immédiatement suivies d'un espace
- l'ensemble formé par
|VB ???|AA ??|
doit-il toujours être consécutif sur la ligne, ou le
|VB ???
et le
|AA ??|
peuvent-ils se trouver séparés

Dal
0