sábado, 13 de agosto de 2011

Pasos a seguir para el reconocimiento de locutores

Bueno después de mucho pelearme y leer, he llegado a unas conclusiones.

Primero de todo, tener una base de datos de voces, lo interesante es construirla nosotros mismos con voces de personas de nuestro alrededor, pero para las tareas de testing yo voy a usar una base de datos, llamada BIOSECURE, que contiene 18 samples de audio de aproximadamente 10 segundos de duración. De cada sample solo hay unos 3 segundos aproximados de voz real, es decir, el resto es silencio, la manera de eliminar el silencio la veremos más adelante, para ello, usaremos una aplicación de la plataforma MISTRAL.

Lo segundo que tenemos que hacer es sacar el vector de caracteristicas de cada, para ello usaremos otra aplicación que está fuera de la plataforma MISTRAL, llamada Spro.

El tercer paso es quitar los silencios de cada sample de audio. Justo antes de suprimir el silencio, es interesante normalizar el vector de caracteristicas (MFCC en nuestro caso). Podemos normalizar de diferentes maneras, pero nosotros lo haremos siguiendo una distribución de probabilidad N(0,1).
Una vez normalizado, usaremos EnegyDetector para etiquetar las zonas con más energía de cada sample(Definimos un umbral, y si está por debajo de ese umbral es silencio y si está por encima es habla.)

Cuarto paso: World model training (no me gusta la traducción), este paso consiste en crear un modelo que representa el espacio total de posibles alternativas dado un hipotetico locutor.
Este es un modelo de aprendizaje, hemos elegido usar Gaussian Mixture Model (GMM). Con esto conseguimos un modelo universal con el que a posteriori compararemos  con el modelo objetivo, es decir, con el locutor que queremos identificar.

Quinto paso: Entrenar el modelo objetico o Target model training. El modelo del locutor se obtiene adaptando los parametros del modelo del cuarto paso usando una estimación MAP (Maximum a posteriori)


NOTA: Esto es un blog, y como he dicho, estoy haciendo un resumen "abstracto" de los pasos a seguir, aquí se nombran muchas técnicas para pasar de un paso a otro, muchas de ellas tienen una fuerte componente matemática/estadística, pero también es cierto que es asequible para alguien que tenga un mínimo conocimiento de inferencia estadística y contraste de hipótesis (nociones que "causalmente" se estudian en nuestra titulación)


Sexto paso: Scoring. Es decir, calcular una puntuación para cada vector de características dado un Target model y un World model, usando ComputeTest obtendremos una salida que detallaremos más adelante, y con ello, daremos el último paso.

Séptimo (y último): Decisión. SImplemente definimos un umbral y si está por encima aceptamos al locutor y si está por debajo, no. Cómo definir el umbral se verá más adelante.




No hay comentarios:

Publicar un comentario