Reconocimiento de voz basado en MFCC, SBC y Espectrogramas

Contenido principal del artículo

Guillermo Arturo Martínez Mascorro
Gualberto Aguilar Torres

Resumen

Uno de los problemas en los sistemas de reconocimiento automático de hablante son los cambios en la voz. Comúnmente, una persona puede tener cambios voluntarios e involuntarios (también naturales y artificiales) que provocan confusiones en el sistema, los cambios en la voz también pueden ser naturales y artificiales. En el artículo presente se propone un sistema de reconocimiento a través de una identificación en paralelo, usando tres algoritmos: MFCC, SBC y el espectrograma. Empleando una máquina de soporte vectorial como clasificador, cada algoritmo arroja un grupo de personas con las probabilidades más altas y después de una evaluación, se toma una decisión. El objetivo de este artículo es tomar ventaja de los tres algoritmos.

Detalles del artículo

Sección
Artículo Científico
Biografía del autor/a

Guillermo Arturo Martínez Mascorro

Ingeniero en Electrónica, Estudiante de la Maestría en Ciencias de Ingeniería en Microelectrónica, Instituto Politécnico Nacional, México DF, México

Gualberto Aguilar Torres

Doctor en Ciencias en Comunicaciones y Electrónica, Maestro en Ciencias de Ingeniería en Microelectrónica, Ingeniero en Comunicaciones y Electrónica, Docente del Instituto Politécnico Nacional en la Sección de Estudios de Posgrado e Investigación de la ESIME Culhuacán, México DF, México.

Referencias

I. Mporas, T. Ganchev, M. Siafarikas, and N. Fako- takis, “Comparison of speech features on the speech recognition task,” Journal of Computer Science, vol. 3, no. 8, pp. 608–616, 2007.

B. Logan, “Mel frequency cepstral coefficients for music modeling.” in International Symposium on Music Information Retrieval, 2000.

R. Sarikaya and J. H. Hansen, “High resolution speech feature parametrization for monophone- based stressed speech recognition,” Signal Process- ing Letters, IEEE, vol. 7, no. 7, pp. 182–185, 2000.

G. A. Martínez and G. Aguilar, “Sistema para identificación de hablantes robusto a cambios en la voz,” Ingenius, no. 8, pp. 45–53, 2012.

T. Acharya and A. K. Ray, Image processing: prin- ciples and applications. Wiley, 2005.

R. Solera-Urena, J. Padrell-Sendra, D. Martín- Iglesias, A. Gallardo-Antolín, C. Peláez-Moreno, and F. Díaz-De-María, “Svms for automatic speech recognition: a survey,” Progress in nonlinear speech processing, pp. 190–216, 2007.