reconnaissance vocale

Question

Bonjour, 

je fais actuellement un projet sur la reconnaissance automatique de la parole (biométrie vocale). 
Le but est de reconnaître une personne grâce à sa voix. 

Le problème: nous ne savons pas ce qu'on peut analyser dans une voix (spectre ou autre) et comment la comparer (on pensait programmer sous Python, c'est le langage qu'on apprend en prépa par défaut). Si quelqu'un a une quelconque connaissance sur le sujet ou a une idée de logiciel/matériel à utiliser, je l'écoute avec plaisir :)

Merci beaucoup de votre réponse :)

co-

Swan_swano · Answer

Salut,

Vous vous lancez dans quelque chose de très compliqué !!

Il faut vous documenter sur l'enregistrement audio numérique (comment est enregistré le son sur un ordi), le traitement du signal (les filtres, spectres et compagnie), ça demande un très bon niveau en maths.

Pour la programmation je pense que c'est peine perdue en partant de zéro.
Je vous conseil matlab histoire d'avoir les bases et quelques toolbox. (Il y a des équivalents gratuits)


après juste une idée comme ça : voir si vous pouvez récupérer un algorithme de reconnaissance de musique (style shazam) et l'utiliser pour de la voix
Déjà voir comment marche ces algorithmes ça peux donner pleins de pistes ;-)


Voila bon courage en tous cas

co- · Answer

merci beaucoup pour cette réponse très rapide!

Pour ce qui est du niveau en maths, je pense me débrouiller assez bien en intégrales et trigonométrie, ce dont on a pas mal besoin... c'est la programmation qui m'embête le plus! D'ailleurs sur ce point, mes profs voulaient qu'on utilise Python, n'y a t-il pas quelque chose de déjà prévu? Sinon je me rabattrai sur matlab.

Sinon merci pour tes conseils je vais effectuer pas mal de recherches sur Shazam! j'avais regardé SIRI mais il n'y a pas (beaucoup) de documents disponibles :/

Swan_swano · Answer

Pour shazam tu ne vas pas trouver des choses très récentes car c'est des travaux confidentiels mais avec les premiers algorithmes qu'ils ont pondus on peut déjà faire des choses sympas.
Pour SIRI faut pas confondre ce que vous voulez faire. SIRI c'est du "speech to text".

Au niveau des maths il faut vous renseigner sur Fourier (Séries et Transformée).

Je ne sais pas ce qu'il y a comme librairies pour python mais si il n'y en a pas pour la gestion et le traitement des fichiers audio (ouverture, FFT & co) c'est un peut mort pour ce langage... C'est pour ça que je parlais de matlab, je sais qu'il y a déjà tout ça ;-)

co- · Answer

http://www.aldebaran-robotics.com/Forum/Behaviors-and-Users-developments/23438-Reconnaissance-vocale-en-Python.html

apparemment ça existe mais c'est peu connu...

Reconnaissance vocale

4 réponses

Votre réponse

Discussions similaires

Newsletters