Quality-driven synthetic text generation for multilingual speech translation with audio large language models

Val Vila, Xavier; Val Vila, Xavier

Quality-driven synthetic text generation for multilingual speech translation with audio large language models

;
Quality-Driven Synthetic Text Generation for Multilingual Speech Translation with Audio Large Language Models;

Para acceder a los documentos con el texto completo, por favor, siga el siguiente enlace: https://hdl.handle.net/2117/456950

Autor/a

Val Vila, Xavier

Otros/as autores/as

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Hernando Pericás, Francisco Javier

Fecha de publicación

2025-10-28

Resumen

This thesis explores quality-driven synthetic data generation as a scalable solution for mul- tilingual speech-to-text translation (S2TT), focusing on Iberian languages with limited natural resources. Leveraging large language models (LLMs) and rigorous reference-free quality filtering via BLASER 2.0, an end-to-end pipeline was implemented to generate millions of high-quality synthetic translations. The approach demonstrates substantial improvements in translation quality and semantic similarity for low-resource languages such as Asturian and Occitan, while enabling efficient scaling to diverse linguistic do- mains. Experimental results reveal that models trained on filtered synthetic data achieve competitive and often state-of-the-art performance in S2TT tasks, and narrow the gap between direct and Chain-of-Thought cascade architectures. This work lays foundational evidence that scalable, quality-centric synthetic data pipelines are powerful enablers for inclusive, robust multilingual speech technologies, especially where manual annotation remains costly or infeasible.

Tipo de documento

Master thesis

Lengua

Inglés

Materias y palabras clave

Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic; Text-to-speech software; Machine learning; Speech; LLM; Text; Generation; Synthetic; Quality; Síntesi de la parla (Programari); Aprenentatge automàtic

Publicado por

Universitat Politècnica de Catalunya

Citación recomendada

Esta citación se ha generado automáticamente.

Exportar

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Derechos

S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'

Open Access

Este ítem aparece en la(s) siguiente(s) colección(ones)

Treballs acadèmics [82075]

Quality-driven synthetic text generation for multilingual speech translation with audio large language models

Autor/a

Otros/as autores/as

Fecha de publicación

Compartir

Resumen

Tipo de documento

Lengua

Materias y palabras clave

Publicado por

Citación recomendada

Exportar

Derechos

Este ítem aparece en la(s) siguiente(s) colección(ones)