Isoler mots identiques (egrep / sed)
Idris
-
Idris -
Idris -
Bonjour,
j'ai un fichier xml extrait d'un corpus, le texte se présente sous la forme <balise1>langue source</balise>|<balise1>langue cible</balise> puis <balise2>langue source</balise>|<balise2>langue cible</balise> etc.
le but est d'extraire les mots identiques dans la langue source et la langue cible.
Sur le terminal d'invite de commandes de linux j'ai essayé de faire la 1ère étape qui est d'isoler les lignes où apparaissent des mots identiques/non-traduits:
ça me donne un résultat plus ou moins satisfaisant, le problème est ensuite d'isoler uniquement les mots. Je pense qu'il me faut utiliser egrep -o ou sed dans un pipe après cette commande, mais je suis complètement débutante et je ne vois pas comment les utiliser (je connais juste l'utilisation de base de sed càd la substitution)
une simple piste de réponse serait la bienvenue!
j'ai un fichier xml extrait d'un corpus, le texte se présente sous la forme <balise1>langue source</balise>|<balise1>langue cible</balise> puis <balise2>langue source</balise>|<balise2>langue cible</balise> etc.
le but est d'extraire les mots identiques dans la langue source et la langue cible.
Sur le terminal d'invite de commandes de linux j'ai essayé de faire la 1ère étape qui est d'isoler les lignes où apparaissent des mots identiques/non-traduits:
egrep '<s id="[^"]+">.*\b([a-zA-Z]{2,})\b.*<\/s>\|<s id="[^"]+">.*?\1.*?<\/s>' fichier.xml
ça me donne un résultat plus ou moins satisfaisant, le problème est ensuite d'isoler uniquement les mots. Je pense qu'il me faut utiliser egrep -o ou sed dans un pipe après cette commande, mais je suis complètement débutante et je ne vois pas comment les utiliser (je connais juste l'utilisation de base de sed càd la substitution)
une simple piste de réponse serait la bienvenue!
A voir également:
- Isoler mots identiques (egrep / sed)
- Retrouver un film avec des mots - Télécharger - Divers TV & Vidéo
- Chercheur de mots - Télécharger - Études & Formations
- Où sont stockés les mots de passe sur android - Guide
- Générateur de mots - Télécharger - Sécurité
- Qui est albot mots entre amis - Forum Jeux vidéo
2 réponses
avec mon premier egrep j'isole une ligne comportant un mot identique de chaque côté du séparateur, par exemple:
<s id="25">I work in the Lapell' s factory .</s>|<s id="22">Je travaille à l' usine Lapell .</s>
et dans la deuxième étape il faut que j'isole simplement la chaîne de caractères identiques donc ici "Lapell". Sauf qu'il faut que je trouve une commande et une expression régulière pour isoler toutes les chaînes de caractères identiques dans le texte, pas un seul mot précis... C'est là que je coince.
<s id="25">I work in the Lapell' s factory .</s>|<s id="22">Je travaille à l' usine Lapell .</s>
et dans la deuxième étape il faut que j'isole simplement la chaîne de caractères identiques donc ici "Lapell". Sauf qu'il faut que je trouve une commande et une expression régulière pour isoler toutes les chaînes de caractères identiques dans le texte, pas un seul mot précis... C'est là que je coince.