<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-13T13:44:06Z</responseDate><request verb="GetRecord" identifier="oai:www.recercat.cat:2117/399166" metadataPrefix="marc">https://recercat.cat/oai/request</request><GetRecord><record><header><identifier>oai:recercat.cat:2117/399166</identifier><datestamp>2025-07-23T07:17:45Z</datestamp><setSpec>com_2072_1033</setSpec><setSpec>col_2072_452951</setSpec></header><metadata><record xmlns="http://www.loc.gov/MARC21/slim" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:doc="http://www.lyncode.com/xoai" xsi:schemaLocation="http://www.loc.gov/MARC21/slim http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
   <leader>00925njm 22002777a 4500</leader>
   <datafield ind2=" " ind1=" " tag="042">
      <subfield code="a">dc</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Gonzálbez Biosca, Daniel</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="260">
      <subfield code="c">2023-06-30</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Los sistemas dedicados a la síntesis del habla, popularmente conocidos como sistemas Text-to-Speech (TTS) han experimentado notables mejoras durante los últimos años gracias al desarrollo y el crecimiento de la inteligencia artificial. Las aplicaciones de estos modelos son múltiples: desde el uso en asistentes de voz hasta el doblaje de producciones cinematográficas. Los objetivos a la hora de entrenar un modelo de este tipo son cada vez más sofisticados. Este proyecto repasa los diferentes retos que hay que resolver a la hora de diseñar un sistema de síntesis de voz así como las diferentes técnicas normalmente usadas en los últimos años para conseguirlo. Además tiene como objetivo principal desarrollar un modelo bilingüe que sea capaz de generar una voz natural a partir de textos tanto en español como en catalán. Por último, se presentan y se prueban distintas soluciones para tratar de conseguir generar una voz de cualquier locutor que no esté presente en las bases de datos utilizadas durante el entrenamiento del sistema. Se exponen todas las dificultades y problemas encontrados dadas las limitaciones de los datos disponibles para desarrollar el sistema.</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Systems dedicated to speech synthesis, popularly known as Text-to-Speech (TTS) systems, have experienced notable improvements in recent years thanks to the development and growth of artificial intelligence. The applications of these models are multiple: from the use in voice assistants to the dubbing of film productions. The objectives when training a model of this type are increasingly sophisticated. This project reviews the different challenges that must be solved when designing a speech synthesis system as well as the different techniques normally used during the last years to achieve it. In addition, its main objective is to develop a bilingual model that is capable of generating a natural voice from texts in both Spanish and Catalan. Finally, different solutions are presented and tested in order to try to generate any voice that is not in the databases used to train the system. The difficulties and problems encountered due to the limitations of the available data to develop the system are exposed.</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Text-to-speech software</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Chatbots</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">TTS</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">multilingüe</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">multilocutor</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">espanyol</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">català</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">intel·ligència artificial</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">model generatiu</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">processament de senyals.</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">multilingual</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">multispeaker</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">spanish</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">catalan</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">artifficial intelligence</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">generative model</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">signal processing.</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Síntesi de la parla (Programari)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Assistent de veu</subfield>
   </datafield>
   <datafield ind2="0" ind1="0" tag="245">
      <subfield code="a">Multi-Speaker and Multi-Lingual Text-to-Speech</subfield>
   </datafield>
</record></metadata></record></GetRecord></OAI-PMH>