Extraction des phrases contenant une structure donnée
fp
-
fp -
fp -
Bonjour,
Je voulais savoir si qq1 pourrait m'aider à faire un code PERL pour un corpus (déjà annoté) depuis lequel je voudrais extraire uniquement les phrases qui ont la structure VB (le mot) pui AA (le mot).
Ca concerne un corpus de l'ourdou ou le VB désigne le verbe et le AA l'auxiliaire aspectuel. Par exemple:
???|KP ??|VB ???|AA ??|PP ????????|NN ???|PN ??|PN ???|NN
????|NN ?|
Je voulais savoir si qq1 pourrait m'aider à faire un code PERL pour un corpus (déjà annoté) depuis lequel je voudrais extraire uniquement les phrases qui ont la structure VB (le mot) pui AA (le mot).
Ca concerne un corpus de l'ourdou ou le VB désigne le verbe et le AA l'auxiliaire aspectuel. Par exemple:
???|KP ??|VB ???|AA ??|PP ????????|NN ???|PN ??|PN ???|NN
????|NN ?|
A voir également:
- Extraction des phrases contenant une structure donnée
- Logiciel calcul structure bois gratuit - Télécharger - Architecture & Déco
- Trier des données excel - Guide
- Structure d'un rapport de stage - Guide
- Vérifier si une phrase est correcte - Accueil - Google
- Dans son restaurant, igor utilise une application pour gérer les réservations. dans le schéma (structure) de la base de données de l’application représenté ci-dessous : de quoi « telephone » est-il le nom ? de quoi « reservations » est-il le nom ? associez chaque terme avec un attribut, une donnée, un enregistrement, une table, une valeur ou une variable. - Forum Webmastering
1 réponse
Bonjour fp,
Dans ta ligne d'exemple :
- que représentent les
- les lettres
- les lettres
- l'ensemble formé par
Dal
Dans ta ligne d'exemple :
???|KP ??|VB ???|AA ??|PP ????????|NN ???|PN ??|PN ???|NN
????|NN ?|
- que représentent les
???et
??qui suivent l'espace après
VBet
AA, est-ce
???pour 3 caractères et
??pour 2 caractères, ou est-ce que cela peut être autre chose ?
- les lettres
VBet
AAsont-elles toujours immédiatement précédées de
|?
- les lettres
VBet
AAsont-elles toujours immédiatement suivies d'un espace
- l'ensemble formé par
|VB ???|AA ??|doit-il toujours être consécutif sur la ligne, ou le
|VB ???et le
|AA ??|peuvent-ils se trouver séparés
Dal
Merci
tu dis désormais " Je recherche que les phrase qui ont au moins une fois le AA."
c'est différent de ce que tu disais dans ton post initial, où tu disais : "je voudrais extraire uniquement les phrases qui ont la structure VB (le mot) pui AA (le mot)"
si ce que tu veux c'est vérifier, pour une ligne donnée, si elle contient "|AA " (barre verticale puis AA, puis espace), tu peux le faire, par exemple comme cela :
Le caractère est échappé car il a une signification particulière dans la regexp (il signifie "ou").
Le et l'espace sont à utiliser s'il faut éviter de matcher accidentellement AA utilisé autrement (dans les xxx, par exemple, ou ailleurs sous une forme ou une autre). Si ce risque n'existe pas, tu peux juste matcher AA comme cela : sans rien d'autre.
Si tu veux autre chose, stp exprime le en disant très exactement ce que tu veux matcher.
Dal
Alors, oui, je voudrai en effet extraire toutes les phrases qui ont au moins une fois AA (car dans mon corpus, le AA apparaît essentiellement après le VB) en modifiant les choses suivantes: suppression de tous les saut de ligne et rajoutant un saut de ligne après une étiquette |SM (comme cette étiquette marque la fin de phrase).
tes "phrases" de départ sont dans un tableau, dans une variable comportant des retours à la ligne, ou traites tu ligne par ligne un fichier ?
????|NN ?|SM (lecture de droite à gauche)
(Je ne sais pas pourquoi les mots apparaits en car ?, je suppose que ? signifie un caractère. Ce sont des lettre du block arabe).
Mon corpus a plusieurs phrases (5.4 millions) mélanger (défois l'étiquette AA n'est pas présent). Ce que je voudrai faire, c'est de extraire en sortie à partir du corpus les phrases qui ont l'étiquette AA.
Mes phrases sont en texte brut dans un fichiers et je voudrai faire une mise en forme en supprimant les saut de ligne et ajouter un saut de ligne après chaque SM, l'étiquette qui permet de distinguer la fin de phrase.
Merci