<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-19T12:33:43Z</responseDate><request verb="GetRecord" identifier="oai:www.recercat.cat:2117/448958" metadataPrefix="marc">https://recercat.cat/oai/request</request><GetRecord><record><header><identifier>oai:recercat.cat:2117/448958</identifier><datestamp>2025-12-11T17:15:01Z</datestamp><setSpec>com_2072_1033</setSpec><setSpec>col_2072_452951</setSpec></header><metadata><record xmlns="http://www.loc.gov/MARC21/slim" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:doc="http://www.lyncode.com/xoai" xsi:schemaLocation="http://www.loc.gov/MARC21/slim http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
   <leader>00925njm 22002777a 4500</leader>
   <datafield ind2=" " ind1=" " tag="042">
      <subfield code="a">dc</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Granados Martín, Arnau</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="260">
      <subfield code="c">2025-06-25</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Aquest Treball de Final de Grau, desenvolupat en el marc del projecte de codi obert LAMB (Learning Assistant Manager and Builder), aborda una limitació clau dels sistemes de Recuperació Augmentada per Generació (RAG) en dominis acadèmics: la desambiguació d'acrònims. Per a dur a terme l'experimentació, s'ha contribuït al desenvolupament del lamb-kb-server, una eina especialitzada per a la gestió de bases de coneixement. La contribució central és el disseny i la implementació d'un algorisme multifàsic per a l'extracció automàtica d'una ontologia d'acrònims, utilitzant la web de la Facultat d'Informàtica de Barcelona (FIB) com a cas d'estudi. Aquesta ontologia s'utilitza per avaluar diverses estratègies de millora: l'expansió de consultes, l'enriquiment de documents i el fine-tuning d'un model d'embeddings de codi obert. Els resultats demostren que l'aplicació d'aquestes tècniques millora dràsticament la qualitat de la recuperació, assolint un increment del rendiment de fins a un 64,5% amb el model obert nomic-embed-text. L'estudi comparatiu revela que, tot i que un model propietari com el d'OpenAI ofereix el millor rendiment absolut, el model obert afinat s'hi aproxima notablement, validant-lo com una alternativa viable. La conclusió principal és que l'èxit del sistema depèn més d'una enginyeria de dades robusta i de l'ús d'estratègies de recuperació avançades que no pas de la simple elecció del model d'embedding base.</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">This Final Degree Project, developed within the framework of the open-source project LAMB (Learning Assistant Manager and Builder), addresses a key limitation of Retrieval-Augmented Generation (RAG) systems in academic domains: the disambiguation of acronyms. To carry out the experimentation, contributions were made to the development of the lamb-kb-server, a specialized tool for managing knowledge bases. The central contribution is the design and implementation of a multi-stage algorithm for the automatic extraction of an acronym ontology, using the website of the Faculty of Informatics of Barcelona (FIB) as a case study. This ontology is used to evaluate several improvement strategies: query expansion, document enrichment, and the fine-tuning of an open-source embedding model. The results demonstrate that applying these techniques drastically improves retrieval quality, achieving a performance increase of up to 64.5% with the open-source nomic-embed-text model. The comparative study reveals that while a proprietary model like OpenAI's offers the best absolute performance, the fine-tuned open-source model closely approaches it, validating it as a viable alternative. The main conclusion is that the system's success depends more on robust data engineering and the use of advanced retrieval strategies than on the mere choice of the base embedding model.</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Este Trabajo de Fin de Grado, desarrollado en el marco del proyecto de código abierto LAMB (Learning Assistant Manager and Builder), aborda una limitación clave de los sistemas de Recuperación Aumentada por Generación (RAG) en dominios académicos: la desambiguación de acrónimos. Para llevar a cabo la experimentación, se ha contribuido al desarrollo del lamb-kb-server, una herramienta especializada para la gestión de bases de conocimiento. La contribución central es el diseño e implementación de un algoritmo multifásico para la extracción automática de una ontología de acrónimos, utilizando la web de la Facultat d’Informàtica de Barcelona (FIB) como caso de estudio. Esta ontología se emplea para evaluar diversas estrategias de mejora: la expansión de consultas, el enriquecimiento de documentos y el fine-tuning de un modelo de embeddings de código abierto. Los resultados demuestran que la aplicación de estas técnicas mejora drásticamente la calidad de la recuperación, alcanzando un incremento del rendimiento de hasta un 64,5% con el modelo abierto nomic-embed-text. El estudio comparativo revela que, aunque un modelo propietario como el de OpenAI ofrece el mejor rendimiento absoluto, el modelo abierto afinado se le aproxima notablemente, validándolo como una alternativa viable. La conclusión principal es que el éxito del sistema depende más de una ingeniería de datos robusta y del uso de estrategias de recuperación avanzadas que de la simple elección del modelo de embedding base.</subfield>
   </datafield>
   <datafield ind1="8" ind2=" " tag="024">
      <subfield code="a">http://hdl.handle.net/2117/448958</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Àrees temàtiques de la UPC::Informàtica::Sistemes d'informació</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Information storage and retrieval systems--Design</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Natural language processing (Computer science)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Software engineering</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Intel·ligència artificial</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">RAG</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Models de llenguatge</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Fine-tuning</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Models d'embedding</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Desambiguació d'acrònims</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Ontologia</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Recuperació d'informació</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Xatbots educatius</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Codi obert</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">LAMB</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Artificial intelligence</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Embedding models</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Ontology</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Information retrieval</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Educational chatbots</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Open source</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">LAMB</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">LAMB</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Informació--Sistemes d'emmagatzematge i recuperació--Disseny</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Tractament del llenguatge natural (Informàtica)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Enginyeria de programari</subfield>
   </datafield>
   <datafield ind2="0" ind1="0" tag="245">
      <subfield code="a">Aplicació de fine-tuning d'embeddings i RAG en models locals per a l'educació</subfield>
   </datafield>
</record></metadata></record></GetRecord></OAI-PMH>