Diseño y manipulación de modelos ocultos de Markov, utilizando herramientas HTK: una tutoría
Roberto Carrillo Aguilar1
1 Universidad de La Frontera. Av. Fco. Salazar 01145. Temuco, Chile. rcarrill@ufro.cl
RESUMEN
Este trabajo da a conocer el sistema de desarrollo de software para el diseño y manipulación de modelos ocultos de Markov, denominado HTK. Actualmente, la técnica de modelos ocultos de Markov es la herramienta más efectiva para implementar sistemas reconocedores del habla. HTK está orientado principalmente a ese aspecto. Su arquitectura es robusta y autosuficiente. Permite: la entrada lógica y natural desde un micrófono, dispone de módulos para la conversión A/D, preprocesado y parametrización de la información, posee herramientas para definir y manipular modelos ocultos de Markov, tiene librerías para entrenamiento y manipulación de los modelos ocultos de Markov ya definidos, considera funciones para definir la gramática, y además: Una serie de herramientas adicionales permiten lograr el objetivo final de obtener una hipotética transcripción del habla (conversión voz - texto).
Palabras clave: Reconocimiento automático del habla, HTK, HMM.
ABSTRACT
This paper presents HTK, a software development platform for the design and management of Hidden Markov Models. Nowadays, the Hidden Markov Models technique is the more effective one to implement voice recognition systems. HTK is mainly oriented to this application. Its architecture is robust and self-sufficient. It allows a natural input from a microphone, it has modules for A/D conversion, it allows pre-processing and parameterization of information, it possesses tools to define and manage the Hidden Markov Models, libraries for training and use the already defined Hidden Markov Models. It has functions to define the grammar and it has additional tools to reach the final objective, to obtain an hypothetical transcription of the talking (voice to text translation).
Keywords: Automatic Speech Recognition, HTK, HMM.
AGRADECIMIENTOS
El autor desea agradecer de manera especial al CMCC (Centro de Modelación Científica y Computacional), de la Universidad de La Frontera, por todo el apoyo brindado en la ejecución de este proyecto.
REFERENCIAS
[1] S. Young, D. Kershaw, J. Odell. "The HTK Book". V3.2. CUED. UK. July 2004.
[2] B. Resch. "Automatic Speech Recognition with HTK". Signal Processing and Speech Communication Laboratory. Inffeldgase. Austria. Disponible en Internet: http://www.igi.tugraz.at/lehre/CI
[3] L. Rabiner, B.H Juang. "Fundamentals of Speech Recognition". Prentice Hall. NY, USA. 1993.
[4] R. Barrientos, C. Zamora. "Reconocimiento de Palabras Aisladas, Usando Modelos Ocultos de Markov". Tesis para optar al título de Ingeniero Civil Electrónico. Universidad de La Frontera. Temuco, Chile. 2004.
[5] J. Proakis, Ch. D. G. Manolakis; "Tratamiento Digital de Señales". Prentice - Hall. 1998.
[6] A. Oppenheim, R. Schafer. "Discrete-Time Signal Processing". Prentice-Hall. USA. 1989.
[7] A. Procházka, J. Uhlír and P. Sovka. "Signal Analysis and Prediction I". Procházka et al. Prague, Czech Republic. 1998.
[8] M. Karnjanadecha, S. Zahorian. "Signal modeling for High-Performance Robus Isolated. Word Recognitions". IEEE Transactions On speech and Audio Processing. Vol 9 No 6. September 2001.