Python - savoir si un mot est dans un intervalle avec séparateurs particuliers Résolu

Question

Bonjour, 

Je débute en Python et j'aimerais simplement savoir si un mot spécifique exact est dans une portion de texte, que j'ai choisi de délimiter par '
' (mais j'aurais très bien pu dire 'aaa' ou autre); la finalité étant de compter le nombre de portions de texte dans lesquelles se trouve le mot.
Exemple:

#je recherche le mot "phrase" en tenant compte de la casse
montexte: 'Première phrase
Deuxième phrases
Toisième paraphrase
Quatrième phrase phrase phrase
Dans cet exemple je devrais obtenir 2, les portions étant ici séparées par '
' et le mot 'phrase' se trouve dans la première et la dernière.

Auriez-vous une piste à me proposer?

Merci!

Phil_1857 · Answer

Bonjour,

Pas très clair

Première phrase
Deuxième phrases
Toisième paraphrase
Quatrième phrase phrase phrase

Il y a 4 fois le mot phrase, c'est quoi le critère pour découper ?

Utilisateur anonyme · Answer

Bonjour 

En un mot => Regex

Y’a plein de tuto en français sur le net sur les regex en général.

A priori pour leurs implémentations en Python, c’est plutôt en anglais.

Pour trouver la bonne syntaxe avant de l’implémenter dans ton programme, tu peux te servir de regex101.com
Ce site permet de choisir le moteur de regex python 2.7

Un exemple 
https://regex101.com/r/WTnpO1/1

yg_be · Answer

bonjour,
je commencerais en utilisant split, qui va te créer une liste de portions.
montexte= 'Première phrase
Deuxième phrases
Toisième paraphrase
Quatrième phrase phrase phrase'
portions=montexte.split('
')
print(portions)

Phil_1857 · Answer

C'est ça: 

Tu découpe ta chaine en une liste avec split et ensuite, tu parcours
la liste avec une boucle, et pour chaque élément, tu utilise les expressions régulières pour extraire phrase mais pas phrases, 
ni paraphrase, bref, tout ce qui n'est pas purement
phrase et tu comptes

Phil_1857 · Answer

Bah, on pense à ça car il faut prendre exactement phrase, mais pas phrases,

ni paraphrase ...

Utilisateur anonyme · Answer

Bon faut admettre que mes tests sur regex101 avec le moteur python 2.7 sont décevants.....

Ici sur regexstorm, avec le moteur .Net,  cette regex (?<=\n.*?)\bphrase\b(?=.*?\n) donne directement le nombre d'occurrences
(lien à copier coller, car CCM ne l'interprète pas comme il faut)
http://regexstorm.net/tester?p=%28%3f%3c%3d%5c%5cn.*%3f%29%5cbphrase%5cb%28%3f%3d.*%3f%5c%5cn%29&i=Premi%c3%a8re+phrase%5cnDeuxi%c3%a8me+phrases+phrase%5cnToisi%c3%a8me+%2cphrase%2c+paraphrase%5cnQuatri%c3%a8me+phrase.+phrases+%3aphrase%3b+%5cn+phrase  

Mais, sur regex101, en python 2.7, elle plante, j'ai trouvé un autre site, pyRegex.com où elle plante aussi.
J'ai essayé sur un site de python en ligne, ça plante aussi mais au moins y'a un message d'erreur...

Phil_1857 · Answer

Bonjour,

Oui, on peut utiliser la notion de boundary (\b) 
pour délimiter phrase :

print('
Exact match')
montexte= 'Première phrase
Deuxième phrases
Toisième paraphrase
Quatrième phrase phrase phrase'
portions=montexte.split('
')
print(portions)

pattern ='\bphrase\b'
print(re.findall(pattern, portions[1]))

Phil_1857 · Answer

l'utilisation de regex me semble un détour inutile:

Oui mais de mon point de vue c'est direct et élégant, je trouve, pas besoin de créer la mécanique soi-même ...

Bon .....

Python - savoir si un mot est dans un intervalle avec séparateurs particuliers

8 réponses

Discussions similaires

Newsletters