Evaluación de la transcripción generada automáticamente con Whisper aplicada a la traducción audiovisual y la accesibilidad a contenido audiovisual

Other authors

Sánchez-Gijón, Pilar,

Publication date

2023



Abstract

El present estudi busca analitzar la qualitat de la transcripció de l'eina Whisper des d'un punt de vista general de la correcció de la llengua. Per a això, es farà una comparació d'aquesta transcripció amb els subtítols generats automàticament de l'eina YouTube Studio i, finalment, amb la transcripció humana creada per l'autora del present treball. L'objectiu final d'aquest estudi és observar la correcció lingüística o nivell d'encert de la transcripció de Whisper, la viabilitat de l'ús d'aquesta eina que usa el reconeixement de la parla amb transcripció automàtica, aplicat al camp de la traducció audiovisual. Per a dur a terme aquestes tasques, s'ha realitzat un estudi amb 25 mostres en 5 idiomes i 1 dialecte: espanyol, anglès, francès, català, valencià i japonès. S'espera obtenir resultats que reflecteixin si l'ús de la transcripció generada a partir del reconeixement de la parla pot ajudar en la tasca de la traducció audiovisual i l'accessibilitat a aquesta mena de contingut.


El presente estudio busca analizar la calidad de la transcripción de la herramienta Whisper desde un punto de vista general de la corrección de la lengua. Para ello, se hará una comparación de dicha transcripción con los subtítulos generados automáticamente de la herramienta YouTube Studio y, finalmente, con la transcripción humana creada por la autora del presente trabajo. El objetivo final de este estudio es observar la corrección lingüística o nivel de acierto de la transcripción de Whisper, la viabilidad del uso de esta herramienta que usa el reconocimiento del habla con transcripción automática, aplicado al campo de la traducción audiovisual. Para llevar a cabo estas tareas, se ha realizado un estudio con 25 muestras en 5 idiomas y 1 dialecto: español, inglés, francés, catalán, valenciano y japonés. Se espera obtener resultados que reflejen si el uso de la transcripción generada a partir del reconocimiento del habla puede ayudar en la tarea de la traducción audiovisual y la accesibilidad a este tipo de contenido.


The present study wants to analyze the quality of the transcription automatically generated by Whisper from a general point of view of language correctness. For this purpose, a comparison will be made between the transcription and the subtitles automatically generated by YouTube Studio and, finally, with the human transcription created by the author of this paper. The final purpose of this study is to observe the linguistic correctness or level of accuracy of the Whisper transcription, and the feasibility of using this tool that uses speech recognition with automatic transcription, applied to the field of audiovisual translation. To determine this, a study has been carried out with 25 samples in 5 languages and 1 dialect: Spanish, English, French, Catalan, Valencian and Japanese. It is expected to obtain results that reflect whether the use of transcription generated from speech recognition can help in the task of audiovisual translation and accessibility to this type of content.

Document Type

Treball de fi de postgrau


TEXT

Language

Spanish

Publisher

Bellaterra : Universitat Autònoma de Barcelona,

Recommended citation

This citation was generated automatically.

Rights

open access

Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial, la distribució, i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades.

https://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)