Sistema para identificación de hablantes robusto a cambios en la voz

Guillermo Arturo Martínez Mascorro; Gualberto Aguilar Torres

doi:10.17163/ings.n8.2012.06

PDF (Spanish)

Published: 2012-12-30

DOI: https://doi.org/10.17163/ings.n8.2012.06

Keywords:

características de voz, coeficientes cepstrales en la frecuencia de Mel, máquina de soporte vectorial, reconocimiento automático del habla, red neuronal artificial

Guillermo Arturo Martínez Mascorro

Gualberto Aguilar Torres

Abstract

Los sistemas de reconocimiento de hablante se componen de tres partes principales: preprocesamiento, extracción de características y clasificación de vectores. En el trabajo presente se considera la cuestión de los cambios en la voz, voluntarios e involuntarios, y cómo esto afecta al reconocimiento de hablante. Para este proyecto se detalla todo el pre procesamiento que se realiza sobre la señal y cómo se obtienen los segmentos vocalizados de la misma. También se aplica un modelo de elaboración de vectores característicos basados en ciertas propiedades de la voz, y en Coeficientes Cepstrales en la Frecuencia de Mel (MFCC), así como una Máquina de Soporte Vectorial (SVM) y una Red Neuronal Artificial (ANN) como clasificadores, posteriormente se comparan los resultados obtenidos. Las pruebas realizadas consisten en analizar la trama que se le presenta al sistema, detectar el segmento vocalizado e indicarle al sistema de qué vocal se trata, para posteriormente, identificar a qué persona pertenece dicha vocal. Los resultados muestran que la elaboración de estos vectores conjuntando propiedades y coeficientes MFCC tienen un alto índice de reconocimiento.

Issue

No. 8 (2012): July / December

Section

Scientific Paper

The Universidad Politécnica Salesiana of Ecuador preserves the copyrights of the published works and will favor the reuse of the works. The works are published in the electronic edition of the journal under a Creative Commons Attribution/Noncommercial-No Derivative Works 4.0 Ecuador license: they can be copied, used, disseminated, transmitted and publicly displayed.

The undersigned author partially transfers the copyrights of this work to the Universidad Politécnica Salesiana of Ecuador for printed editions.

It is also stated that they have respected the ethical principles of research and are free from any conflict of interest. The author(s) certify that this work has not been published, nor is it under consideration for publication in any other journal or editorial work.

The author (s) are responsible for their content and have contributed to the conception, design and completion of the work, analysis and interpretation of data, and to have participated in the writing of the text and its revisions, as well as in the approval of the version which is finally referred to as an attachment.

Author Biographies

Guillermo Arturo Martínez Mascorro

Ingeniero en Electrónica, Estudiante de la Maestría en Ciencias de Ingeniería en Microelectrónica, Instituto Politécnico Nacional, México DF, México.

Gualberto Aguilar Torres

Doctor en Ciencias en Comunicaciones y Electrónica, Maestro en Ciencias de Ingeniería en Microelectrónica, Ingeniero en Comunicaciones y Electrónica, Docente del Instituto Politécnico Nacional en la Sección de Estudios de Posgrado e Investigación de la ESIME Culhuacán, México D.F., México.

References

Y. Hong-wu, L. Ya-li, and H. De-zhi, “Speaker recognition based on weighted mel-cepstrum,” in Fourth International Conference on Computer Sciences and Convergence Information Technology. ICCIT’09. IEEE, 2009, pp. 200–203.

J. Padrell-Sendra, D. Mart?n-Iglesias, and F. D?azde Mar?a, “Support vector machines for continuous speech recognition,” in Proceedings of the 14th European Signal Processing Conference, Florence, Italy, vol. 160, 2006.

M. Kesarkar, “Feature extraction for speech recognition,” Electronic Systems, EE. Dept., IIT Bombay, 2003.

X. Sun, “A pitch determination algorithm based on subharmonic-to-harmonic ratio,” in Proceedings of the 6th International Conference on Spoken Language Processing, Beijing, China., vol. 1000. Citeseer, October, 2000, pp. 676–679.

——, “Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio,” in International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 1. IEEE, 2002, pp. 333–336.

M. Farrús, J. Hernando, and P. Ejarque, “Jitter and shimmer measurements for speaker recognition,” in 8th Annual Conference of the International Speech Communication Association, Antwerp, Belgium, August 27-31, 2007, pp. 778–781.

P. Del Pino, I. Granadillo, M. Miranda, C. Jiménez, and J. Díaz, “Diseño de un sistema de medición de parámetros característicos y de calidad de señales de voz,” Revista Ingeniería UC, vol. 15, no. 2, pp. 13–20, 2008.

A. V. Mantilla C, “Análisis, reconocimiento y síntesis de voz esofágica,” Ph.D. dissertation, Sección de Estudios de Posgrado e Investigación, Escuela Superior de Ingeniería Mecánica y Eléctrica, Instituto Politécnico Nacional, Agosto, 2007.

L. Siegel and A. Bessey, “Voiced / unvoiced / mixed excitation classification of speech,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 30, no. 3, pp. 451–460, 1982.

B. Boser, I. Guyon, and V. Vapnik, “A training algorithm for optimal margin classifiers,” in Proceedings of the 5th annual workshop on Computational Learning Theory. ACM, 1992, pp. 144– 152.

R. Solera-Urena, J. Padrell-Sendra, D. MartínIglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.

L. Cruz-Beltrán and M. Acevedo-Mosqueda, “Reconocimiento de voz usando redes neuronales artificiales backpropagation y coeficientes lpc,” in 6to Congreso Internacional de Cómputo en Optimización y Software. CiCos, 2008, pp. 89–99.

Article Sidebar

Main Article Content

Abstract

Article Details

Guillermo Arturo Martínez Mascorro

Gualberto Aguilar Torres

References