Abstract:
|
El comportamiento de los sistemas actuales de reconocimiento del habla se degrada rápidamente en presencia de ruido de fondo. Recientemente, se ha propuesto una técnica de representación de la señal de voz basada en la predicción lineal de la parte causal de la autocorrelación (OSALPC) que ha mostrado ser atractiva para el reconocimiento de habla ruidosa debido a sus altas prestaciones con respecto a la predicción lineal (LPC) convencional en condiciones severas de ruido blanco aditivo y a su simplicidad computacional. El propósito de este artículo es doble: 1) mostrar que la técnica OSALPC obtiene también buenas prestaciones en un entorno ruidoso real (ruido de coche), y 2) explorar su combinación con varias técnicas robustas de medida de similitud, mostrando que sus prestaciones mejoran aún más filtrando convenientemente los parámetros espectrales y realizando un etiquetado múltiple de los mismos. | The performance of the existing speech recognition systems degrades rapidly in the presence of background noise. A novel representation of the speech signal, which is based on Linear Prediction of the One-Sided Autocorrelation sequence (OSALPC), has shown to be attractive to speech recognition because of both its high recognition performance with respect to the standard LPC in severe conditions of additive white noise and its computational simplicity. The aim of this work is twofold: 1) to show that OSALPC also achieves good performance in a case of real noisy speech (in a car environment), and 2) to explore its combination with several robust similarity measuring techniques, showing that its performance even improves by filtering and multilabeling conveniently the spectral parameters. |