Substitution de motif avec Perl

Question

Bonjour,
Je fais un programme en Perl qui recherche un motif dans un texte puis renvoi le motif encadré par des balises.
Par exemple si le motif est composé de nom et prenom ("Dupont Emile"). On aura dans le fichier de retour <Nom> Dupont </Prenom>.

J'ai évolue de la manière suivante:

#!c:\perl\perl.exe
use strict;

open(TX,"texte.txt");
open(RES,">resultat.txt");
my $np="(^.+([A-Z]{1}[a-z]+)\s+([A-Z]{1}[a-z]+))";
my $ligne;
while (<TX>)
{
$ligne=$_;
if($ligne=~m/($np)/)
{
$ligne=~m/($np)/<Nom>$1</Prenom>/g;
}
}
Cela me semble correcte sauf que le compilateur revele qu'i y a un problème au niveau de $1.

Si quelqu'un s'y connait merci de me venir en aide.

Configuration: Windows Vista
Safari 532.0

lami20j · Answer

Salut,

Je vois que tu veux carrément exclure les nom, prénom avec accents

lami20j@debian:~$ cat texte.txt
Personnage Dupont Emile
Personnage2 Duval Daniel
lami20j@debian:~$ cat nom.pl
#!/usr/bin/perl
use strict;use warnings;

open TX,"texte.txt"      or die "E/S : texte.txt $!\n";
open RES,">resultat.txt" or die "E/S : resultat.txt $!\n";

my $np=qr/^.+?  # n'importe quels caractères
                # mais n'oubliont pas la gurmandise de +
          ([A-Z]{1}[a-z]+) # nom
          \s+              # séparateur
          ([A-Z]{1}[a-z]+) # prénom
        /x; # le modificateur x permet d'inserer
            # des espaces dans regex sans être pris pour motif
            # en ce cas pour espace il faut utiliser \s
            # ça permet de mettre des comméntaires dans regex

print "$np\n\n"; # juste pour voir ce que contient
                 # l'objet regex
while (<TX>)
{
  if(/$np/) { # ici il ne faut plus mettre des paranthèses
              # qr s'en occupe.
    my $ligne="<Nom>" . $1 . "</Prenom>";
    print RES $ligne,"\n";
  }
}
__END__

lami20j@debian:~$ perl nom.pl
(?x-ism:^.+?  # n'importe quels caractères
                # mais n'oubliont pas la gurmandise de +
          ([A-Z]{1}[a-z]+) # nom
          \s+              # séparateur
          ([A-Z]{1}[a-z]+) # prénom
        )

lami20j@debian:~$ cat resultat.txt
<Nom>Dupont</Prenom>
<Nom>Duval</Prenom>
lami20j@debian:~$

lami20j · Answer

Salut, Ce n'est pas ce que je cherche exactement. Pourtant c'est bien ça que tu as demandé. Par exemple si le motif est composé de nom et prenom ("Dupont Emile"). On aura dans le fichier de retour Dupont . Si vous avez une idée là dessus merci de me venir en aide. Ce n'est pas les idées qui manquent. Un grand pas en avant c'est bien comprendre ce qu'on veut obtenir ;-) lami20j@debian:~$ cat nom.pl #!/usr/bin/perl use strict;use warnings; open TX,"texte.txt" or die "E/S : texte.txt $! "; open RES,">resultat.txt" or die "E/S : resultat.txt $! "; my $np=qr/^(.+?) # n'importe quels caractères # mais n'oubliont pas la gurmandise de + ([A-Z]{1}[a-z]+) # nom \s+ # séparateur ([A-Z]{1}[a-z]+) # prénom (.*)$ /x; # le modificateur x permet d'inserer # des espaces dans regex sans être pris pour motif # en ce cas pour espace il faut utiliser \s # ça permet de mettre des comméntaires dans regex print "$np "; # juste pour voir ce que contient # l'objet regex while () { s/$np/$1$2 $3$4/; print RES ; } __END__ lami20j@debian:~$ perl nom.pl (?x-ism:^(.+?) # n'importe quels caractères # mais n'oubliont pas la gurmandise de + ([A-Z]{1}[a-z]+) # nom \s+ # séparateur ([A-Z]{1}[a-z]+) # prénom (.*)$ ) lami20j@debian:~$ cat resultat.txt -Bonjour M. Lemarchand Etienne -Avez vous rencontré votre superieur Lefevre Jean.

lami20j · Answer

Re,

sauf qu'il me pose probléme quand je cherche comme motif des mots dont tous les lettres sont en majuscule. 

Comment on peut savoir dans une phrase qu'il s'agit des nom prénoms parmi tous les mots?
On peut avoir comme ça
dupont emile
ou
Dupont emile
ou
DUPONT Emile
ou 
DUPONT EMILE
ou
Dupont,Emile
etc.

Autrement dit, ce que tu demande c'est impossible avec une expression régulière ou autre fonction de recherche de chaîne s'il n'y a pas des règles précises de recherche de motif.
La seule solution (et ce n'est pas à 100%) c'est d'avoir un fichier qui contient tous les nom et prénoms) et ensuite faire des recherches et comparaisons.

lami20j · Answer

Re,

Comme je te l'ai dit Nom Prénom en fin de compte ça fait deux mots.

Chercher deux mots dans une phrase sans savoir quoi chercher, sans avoir une règle de recherche ce n'est pas possible. Tous les couples de deux mots sont valables.

Ensuite tu ne cherches plus des mots mais des abréviations en majuscules.
Mais qui nous dit qu'un mot qui est un majuscules et forcément une abréviation?

Se lancer dans un territoire inconnu pour faire des regex ce commet travailler à l'aveugle.

Une regex pour un mot un majuscules sera /\b[A-Z]+\b/ mais il va trouver tous les mots en majuscules, qu'ils soient des abréviations, noms, prénoms ou n'importe quelle signification.

Alors peut être c'est le moment de dire exactement ce qui t'a été demandé ainsi que de donner le fichier à traiter pour pouvoir tester.

lami20j · Answer

Salut,

Par exemple, mais ça ne marche pas si au lieu de ONU tu as O.N.U.

lami20j@debian:~$ cat nom.pl
#!/usr/bin/perl
use strict;use warnings;

open TX,"texte.txt"      or die "E/S : texte.txt $!\n";
open RES,">resultat.txt" or die "E/S : resultat.txt $!\n";

my $np=qr/^(.+?)
          ([A-Z]{1}[a-z]+)
          \s+
          ([A-Z]{1}[a-z]+)
          (.*)$
        /x;
my $abrev = qr/\b([A-Z]{2,})\b/;

while (<TX>)
{
  s/$np/$1<Nom>$2 $3<\/Prenom>$4/;
  s/$abrev/<abrev>$1<\/abrev>/g;
  print RES ;
}
__END__

lami20j@debian:~$ perl nom.pl
lami20j@debian:~$ cat resultat.txt
-Bonjour M. <Nom>Lemarchand Etienne</Prenom>
-Avez vous rencontré votre superieur <Nom>Lefevre Jean</Prenom>.
Au fait les mots en majuscule que je cherche n'ont rien à voir avec les noms et prénoms. C'est plutot les abreviations et cycle comme <abrev>ONU</abrev>(Organisation des nations unis) ou <abrev>INSA</abrev>, <abrev>POLYTECH</abrev>, <abrev>SNCF</abrev>.

lami20j · Answer

Salut, Mais ça ne marche. J'ai du certainement mal ecrit mon expession. Oui, certainement. Colle ici ton texte pour pouvoir tester. Je suppose que tu veux obtenir lundi par exemple.

Substitution de motif avec Perl

6 réponses

Discussions similaires

Newsletters