dc.contributor |
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació |
dc.contributor |
Padró, Lluís |
dc.contributor.author |
Córdoba Perarnau, Guillem |
dc.date |
2017-01 |
dc.identifier.citation |
123983 |
dc.identifier.uri |
http://hdl.handle.net/2117/100296 |
dc.language.iso |
cat |
dc.publisher |
Universitat Politècnica de Catalunya |
dc.rights |
info:eu-repo/semantics/openAccess |
dc.subject |
Àrees temàtiques de la UPC::Informàtica |
dc.subject |
Speech processing systems |
dc.subject |
Neural networks (Computer science) |
dc.subject |
Machine learning |
dc.subject |
reconeixement |
dc.subject |
veu |
dc.subject |
automàtic |
dc.subject |
xarxa |
dc.subject |
neuronal |
dc.subject |
kaldi |
dc.subject |
nlp |
dc.subject |
freeling |
dc.subject |
automatic |
dc.subject |
speech |
dc.subject |
recognition |
dc.subject |
deep |
dc.subject |
learning |
dc.subject |
neural |
dc.subject |
network |
dc.subject |
Processament de la parla |
dc.subject |
Xarxes neuronals (Informàtica) |
dc.subject |
Aprenentatge automàtic |
dc.title |
Sistema ASR basat en deep learning integrat en el servidor TextServer |
dc.title |
Reconeixedor de la parla basat en deep learning accessible via web-service |
dc.type |
info:eu-repo/semantics/bachelorThesis |
dc.description.abstract |
En aquest treball es descriu la planificació, disseny i implementació d’un sistema ASR (Automatic Speech Recognition) com un servei del servidor TextServer. Es tracta d’un projecte orientat a desenvolupadors, per tal que aquests puguin incorporar molt fàcilment funcionalitats ASR dins de les seves pròpies aplicacions, servint-se del present treball. Per a aconseguir-ho, es farà una recerca sobre què són i com funcionen els sistemes de reconeixement de veu automàtics, així com també es valoraran les diferents opcions de disseny i d’implementació del projecte. També s’hi inclou, en concret, un anàlisi sobre l’eina Kaldi, sobre la qual construirem el nostre sistema. Es realitzarà una recerca sobre els recursos lingüístics necessaris per a què un sistema d’aquest tipus funcioni. Tot seguit s’obtindran i s’integraran en el sistema, per a què sigui capaç de descodificar els senyals auditius. Es farà una proposta de paràmetres i configuració del sistema, que després s’hi implementaran. Aquests tenen per finalitat permetre a l’usuari ajustar-se a cada cas d’ús de l’aplicació que s’estigui desenvolupant. A més, s’avaluarà el sistema obtingut, tant en rendiment com en qualitat del projecte en sí. Es busca un sistema configurable, flexible, precís i eficaç. |
dc.description.abstract |
En este trabajo de describen la planificación, diseño e implementación de un sistema ASR (Automatic Speech Recognition) como un servicio dentro del servidor TextServer. Se trata de un proyecto orientado a los desarrolladores, para que puedan incorporar muy fácilmente funcionalidades ASR dentro de sus propias aplicaciones, sirviéndose del presente trabajo. Para conseguirlo, se hará una búsqueda sobre qué son y cómo funcionan los sistemas de reconocimiento de voz automáticos, así como también se valoraran las diferentes opciones de diseño e implementación del proyector. En concreto, se incluye un análisis sobre la herramienta Kaldi, sobre la cual construiremos nuestro sistema Se realizará también una búsqueda sobre los recursos lingüísticos necesarios para que un sistema de este tipo funcione. Después, se obtendrán e integraran dentro del propio sistema, para que sea capaz de descodificar las señales auditivas. Se hará una propuesta de parámetros i configuración del sistema, que después implementaremos. Estos tienen por finalidada permitir al usuario ajustarse a cada caso de uso de la aplicación que se esté desarrollando. Además, se evaluará el sistema obtenido, tanto en rendimiento como en calidad del proyecto en sí. Se busca un sistema configurable, flexible, preciso y eficaz. |
dc.description.abstract |
This work describes the planification, design and implementation of an ASR system
(Automatic Speech Recognition) as a service inside the TextServer server. It is a project
meant for developers, so they can add very easily ASR funcionalities into their own
applications, using the present work.
In order to achieve that goal, we will do a research about what ASR systems are and
how they work. Different design and implementation options for the project will be
considered, as well. Also, we will include an analysis about the Kaldi toolkit, upon
which we will build our system.
We will research about the necessary linguistic resources in order for an ASR system to
work. After that, we will obtain them and integrate them into the system, to grant it
the ability to decode audio signal.
We will discuss a the choice of the parametres and configuration of the system, and then
implement them on the project. Their finality is to allow the user to adjust to every use
case of the application he/she is working on.
Finally, an evaluation of the system, on the efficiency as well as on the quality of the
project itself, will be discussed. Our aim is to create a configurable, flexible, precise and
efficient ASR system. |