Sistema para identificación de hablantes robusto a cambios en la voz

Guillermo Arturo Martínez Mascorro; Gualberto Aguilar Torres

doi:10.17163/ings.n8.2012.06

PDF

Publicado: 2012-12-30

DOI: https://doi.org/10.17163/ings.n8.2012.06

Palabras clave:

características de voz, coeficientes cepstrales en la frecuencia de Mel, máquina de soporte vectorial, reconocimiento automático del habla, red neuronal artificial

Guillermo Arturo Martínez Mascorro

Gualberto Aguilar Torres

Resumen

Los sistemas de reconocimiento de hablante se componen de tres partes principales: preprocesamiento, extracción de características y clasificación de vectores. En el trabajo presente se considera la cuestión de los cambios en la voz, voluntarios e involuntarios, y cómo esto afecta al reconocimiento de hablante. Para este proyecto se detalla todo el pre procesamiento que se realiza sobre la señal y cómo se obtienen los segmentos vocalizados de la misma. También se aplica un modelo de elaboración de vectores característicos basados en ciertas propiedades de la voz, y en Coeficientes Cepstrales en la Frecuencia de Mel (MFCC), así como una Máquina de Soporte Vectorial (SVM) y una Red Neuronal Artificial (ANN) como clasificadores, posteriormente se comparan los resultados obtenidos. Las pruebas realizadas consisten en analizar la trama que se le presenta al sistema, detectar el segmento vocalizado e indicarle al sistema de qué vocal se trata, para posteriormente, identificar a qué persona pertenece dicha vocal. Los resultados muestran que la elaboración de estos vectores conjuntando propiedades y coeficientes MFCC tienen un alto índice de reconocimiento.

Número

Núm. 8 (2012): julio / diciembre

Sección

Artículo Científico

La Universidad Politécnica Salesiana de Ecuador conserva los derechos patrimoniales (copyright) de las obras publicadas y favorecerá la reutilización de las mismas. Las obras se publican en la edición electrónica de la revista bajo una licencia Creative Commons Reconocimiento / No Comercial-Sin Obra Derivada 4.0 Ecuador: se pueden copiar, usar, difundir, transmitir y exponer públicamente.

El autor/es abajo firmante transfiere parcialmente los derechos de propiedad (copyright) del presente trabajo a la Universidad Politécnica Salesiana del Ecuador, para las ediciones impresas.

Se declara además haber respetado los principios éticos de investigación y estar libre de cualquier conflicto de intereses.

El autor/es certifican que este trabajo no ha sido publicado, ni está en vías de consideración para su publicación en ninguna otra revista u obra editorial.

El autor/es se responsabilizan de su contenido y de haber contribuido a la concepción, diseño y realización del trabajo, análisis e interpretación de datos, y de haber participado en la redacción del texto y sus revisiones, así como en la aprobación de la versión que finalmente se remite en adjunto.

Biografía del autor/a

Guillermo Arturo Martínez Mascorro

Ingeniero en Electrónica, Estudiante de la Maestría en Ciencias de Ingeniería en Microelectrónica, Instituto Politécnico Nacional, México DF, México.

Gualberto Aguilar Torres

Doctor en Ciencias en Comunicaciones y Electrónica, Maestro en Ciencias de Ingeniería en Microelectrónica, Ingeniero en Comunicaciones y Electrónica, Docente del Instituto Politécnico Nacional en la Sección de Estudios de Posgrado e Investigación de la ESIME Culhuacán, México D.F., México.

Referencias

Y. Hong-wu, L. Ya-li, and H. De-zhi, “Speaker recognition based on weighted mel-cepstrum,” in Fourth International Conference on Computer Sciences and Convergence Information Technology. ICCIT’09. IEEE, 2009, pp. 200–203.

J. Padrell-Sendra, D. Mart?n-Iglesias, and F. D?azde Mar?a, “Support vector machines for continuous speech recognition,” in Proceedings of the 14th European Signal Processing Conference, Florence, Italy, vol. 160, 2006.

M. Kesarkar, “Feature extraction for speech recognition,” Electronic Systems, EE. Dept., IIT Bombay, 2003.

X. Sun, “A pitch determination algorithm based on subharmonic-to-harmonic ratio,” in Proceedings of the 6th International Conference on Spoken Language Processing, Beijing, China., vol. 1000. Citeseer, October, 2000, pp. 676–679.

——, “Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio,” in International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 1. IEEE, 2002, pp. 333–336.

M. Farrús, J. Hernando, and P. Ejarque, “Jitter and shimmer measurements for speaker recognition,” in 8th Annual Conference of the International Speech Communication Association, Antwerp, Belgium, August 27-31, 2007, pp. 778–781.

P. Del Pino, I. Granadillo, M. Miranda, C. Jiménez, and J. Díaz, “Diseño de un sistema de medición de parámetros característicos y de calidad de señales de voz,” Revista Ingeniería UC, vol. 15, no. 2, pp. 13–20, 2008.

A. V. Mantilla C, “Análisis, reconocimiento y síntesis de voz esofágica,” Ph.D. dissertation, Sección de Estudios de Posgrado e Investigación, Escuela Superior de Ingeniería Mecánica y Eléctrica, Instituto Politécnico Nacional, Agosto, 2007.

L. Siegel and A. Bessey, “Voiced / unvoiced / mixed excitation classification of speech,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 30, no. 3, pp. 451–460, 1982.

B. Boser, I. Guyon, and V. Vapnik, “A training algorithm for optimal margin classifiers,” in Proceedings of the 5th annual workshop on Computational Learning Theory. ACM, 1992, pp. 144– 152.

R. Solera-Urena, J. Padrell-Sendra, D. MartínIglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.

L. Cruz-Beltrán and M. Acevedo-Mosqueda, “Reconocimiento de voz usando redes neuronales artificiales backpropagation y coeficientes lpc,” in 6to Congreso Internacional de Cómputo en Optimización y Software. CiCos, 2008, pp. 89–99.

Barra lateral del artículo

Contenido principal del artículo

Resumen

Detalles del artículo

Guillermo Arturo Martínez Mascorro

Gualberto Aguilar Torres

Referencias