Sistema para identificación de hablantes robusto a cambios en la voz

Main Article Content

Guillermo Arturo Martínez Mascorro
Gualberto Aguilar Torres

Abstract

Los sistemas de reconocimiento de hablante se componen de tres partes principales: preprocesamiento, extracción de características y clasificación de vectores. En el trabajo presente se considera la cuestión de los cambios en la voz, voluntarios e involuntarios, y cómo esto afecta al reconocimiento de hablante. Para este proyecto se detalla todo el pre procesamiento que se realiza sobre la señal y cómo se obtienen los segmentos vocalizados de la misma. También se aplica un modelo de elaboración de vectores característicos basados en ciertas propiedades de la voz, y en Coeficientes Cepstrales en la Frecuencia de Mel (MFCC), así como una Máquina de Soporte Vectorial (SVM) y una Red Neuronal Artificial (ANN) como clasificadores, posteriormente se comparan los resultados obtenidos. Las pruebas realizadas consisten en analizar la trama que se le presenta al sistema, detectar el segmento vocalizado e indicarle al sistema de qué vocal se trata, para posteriormente, identificar a qué persona pertenece dicha vocal. Los resultados muestran que la elaboración de estos vectores conjuntando propiedades y coeficientes MFCC tienen un alto índice de reconocimiento.

Article Details

Section
Scientific Paper
Author Biographies

Guillermo Arturo Martínez Mascorro

Ingeniero en Electrónica, Estudiante de la Maestría en Ciencias de Ingeniería en Microelectrónica, Instituto Politécnico Nacional, México DF, México.

Gualberto Aguilar Torres

Doctor en Ciencias en Comunicaciones y Electrónica, Maestro en Ciencias de Ingeniería en Microelectrónica, Ingeniero en Comunicaciones y Electrónica, Docente del Instituto Politécnico Nacional en la Sección de Estudios de Posgrado e Investigación de la ESIME Culhuacán, México D.F., México.

References

Y. Hong-wu, L. Ya-li, and H. De-zhi, “Speaker recognition based on weighted mel-cepstrum,” in Fourth International Conference on Computer Sciences and Convergence Information Technology. ICCIT’09. IEEE, 2009, pp. 200–203.

J. Padrell-Sendra, D. Mart?n-Iglesias, and F. D?azde Mar?a, “Support vector machines for continuous speech recognition,” in Proceedings of the 14th European Signal Processing Conference, Florence, Italy, vol. 160, 2006.

M. Kesarkar, “Feature extraction for speech recognition,” Electronic Systems, EE. Dept., IIT Bombay, 2003.

X. Sun, “A pitch determination algorithm based on subharmonic-to-harmonic ratio,” in Proceedings of the 6th International Conference on Spoken Language Processing, Beijing, China., vol. 1000. Citeseer, October, 2000, pp. 676–679.

——, “Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio,” in International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 1. IEEE, 2002, pp. 333–336.

M. Farrús, J. Hernando, and P. Ejarque, “Jitter and shimmer measurements for speaker recognition,” in 8th Annual Conference of the International Speech Communication Association, Antwerp, Belgium, August 27-31, 2007, pp. 778–781.

P. Del Pino, I. Granadillo, M. Miranda, C. Jiménez, and J. Díaz, “Diseño de un sistema de medición de parámetros característicos y de calidad de señales de voz,” Revista Ingeniería UC, vol. 15, no. 2, pp. 13–20, 2008.

A. V. Mantilla C, “Análisis, reconocimiento y síntesis de voz esofágica,” Ph.D. dissertation, Sección de Estudios de Posgrado e Investigación, Escuela Superior de Ingeniería Mecánica y Eléctrica, Instituto Politécnico Nacional, Agosto, 2007.

L. Siegel and A. Bessey, “Voiced / unvoiced / mixed excitation classification of speech,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 30, no. 3, pp. 451–460, 1982.

B. Boser, I. Guyon, and V. Vapnik, “A training algorithm for optimal margin classifiers,” in Proceedings of the 5th annual workshop on Computational Learning Theory. ACM, 1992, pp. 144– 152.

R. Solera-Urena, J. Padrell-Sendra, D. MartínIglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.

L. Cruz-Beltrán and M. Acevedo-Mosqueda, “Reconocimiento de voz usando redes neuronales artificiales backpropagation y coeficientes lpc,” in 6to Congreso Internacional de Cómputo en Optimización y Software. CiCos, 2008, pp. 89–99.