Abstract:
|
Este documento tiene por objetivo recoger la información relativa al proyecto
sobre la creación de un algoritmo para Start-and-End point detection de una
señal pregrabada.
La intención inicial del desarrollo de este algoritmo es que pueda ser utilizado
en la entrada de una aplicación de reconocimiento de voz. En términos
generales, el resultado de este trabajo es un algoritmo que puede detectar el
comienzo y el fin de una señal previamente grabada basado en un algoritmo
de detección de la actividad de la voz previamente desarrollado por la Czech
Technical University, Faculty of Electrical Engineering.
Hay dos temas principales de estudio en este proyecto: detección de la
actividad de la voz (VAD algorithm) y determinar el punto de inicio y fin de la
señal (Start-and-End point detection). El primer paso para la construcción del
algoritmo final es ser capaz de identificar la actividad de la voz en una señal
mediante el VAD algorithm para después ser capaz de detectar el inicio y final
de la actividad de la voz y descartar los silencios de la señal mediante el Startand-
End point detection algorithm.
Con el fin de demostrar el modo de funcionamiento de dicho algoritmo se ha
creado una aplicación en MATLAB que permite ver gráficamente una señal
previamente grabada y posteriormente su punto inicial y final después de
aplicar los algoritmos.
Por último, para proporcionar resultados más gráficos y dar al proyecto un
valor añadido y con vistas a convertirse en una futura aplicación posible se ha
añadido el reconocimiento de dígitos basado en de un algoritmo DTW
(Dinamic Time Warping). English: The objective of the project is the creation of an algorithm for Start-and-End point detection of a pre-recorded signal. The initial reason for developing this algorithm is so it can be used at the input of a voice recognition application. Overall, the result of this work is an algorithm that can detect the beginning and end of a previously recorded signal based on a detection algorithm of the voice activity previously developed by the Czech Technical University, Faculty of Electrical Engineering. Two main issues are studied in this project: Detecting the Voice Activity (VAD algorithm) and determining the start and end point of the signal (Start-and-End point detection). To demonstrate the mode of operation of the algorithm, I have created an application in MATLAB to show graphically the process for a previously recorded signal and then the start and end points after applying the algorithms. Finally, to provide better graphic performance and provide added value to the project, I have added a digit recognition algorithm based on a DTW (Dynamic Time Warping). |