<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-13T01:56:11Z</responseDate><request verb="GetRecord" identifier="oai:www.recercat.cat:2117/457646" metadataPrefix="marc">https://recercat.cat/oai/request</request><GetRecord><record><header><identifier>oai:recercat.cat:2117/457646</identifier><datestamp>2026-03-20T14:06:18Z</datestamp><setSpec>com_2072_1033</setSpec><setSpec>col_2072_452951</setSpec></header><metadata><record xmlns="http://www.loc.gov/MARC21/slim" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:doc="http://www.lyncode.com/xoai" xsi:schemaLocation="http://www.loc.gov/MARC21/slim http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
   <leader>00925njm 22002777a 4500</leader>
   <datafield ind2=" " ind1=" " tag="042">
      <subfield code="a">dc</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Martín Fernández, Gonzalo</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="260">
      <subfield code="c">2026-02-24</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Els Grans Models de Llenguatge (LLMs) s’han convertit en una tecnologia crucial per a múltiples dominis organitzatius, oferint millores importants en eficiència, qualitat i escalabilitat dels processos. Tanmateix, el seu desplegament responsable presenta reptes relacionats amb el rendiment, el consum de recursos, la regulació i l’alineació amb les preferències dels usuaris. La selecció de models basada únicament en mètriques de capacitat o rendiment és insuficient per donar suport a una presa de decisions informada en escenaris del món real.
Dins d’aquest context, el projecte de recerca ML-Compass emergeix com un marc d’optimització desenvolupat per donar suport a decisions de desplegament d’aprenentatge automàtic des d’una perspectiva de gestió d’operacions. Proporciona un marc unificador que formula la selecció com un problema d’optimització amb restriccions, oferint una base teòrica juntament amb una pipeline pràctica per orientar perfils de capacitat–cost i recomanar models adequats.
Sota aquest marc, aquesta tesi demostra com els benchmarks específics d'un domini concret poden ser aprofitats per validar empíricament el marc ML-Compass i explotar plenament la metodologia proposada. Utilitzant HealthBench, un benchmark clínic de LLM d’última generació, es construeix un conjunt de dades de validació personalitzat, vinculant mètriques internes de capacitat i cost dels models amb mesures d’utilitat percebuda, derivades de les avaluacions clíniques basades en rúbriques de HealthBench.
Mitjançant la selecció i caracterització de múltiples LLMs i la generació i avaluació a gran escala de respostes de converses mèdiques, HealthBench s’executa sobre un conjunt de 33 LLMs. A partir d’aquests resultats, s’estimen funcions d’utilitat per capturar la utilitat percebuda per l’usuari sota condicions contextuals específiques.</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Los Grandes Modelos de Lenguaje (LLMs) se han convertido en una tecnología crucial para múltiples dominios organizativos, ofreciendo importantes mejoras en eficiencia, calidad y escalabilidad de procesos. Sin embargo, su despliegue responsable presenta desafíos relacionados con el rendimiento, el consumo de recursos, la regulación y la alineación con las preferencias de los usuarios. La selección de modelos basada únicamente en métricas de capacidad o rendimiento es insuficiente para apoyar una toma de decisiones informada en escenarios del mundo real.
Dentro de este contexto, el proyecto de investigación ML-Compass surge como un marco de optimización desarrollado para apoyar decisiones de despliegue de aprendizaje automático desde una perspectiva de gestión de operaciones. Proporciona un marco unificador que formula la selección como un problema de optimización con restricciones, ofreciendo una base teórica junto con una pipeline práctica para orientar perfiles de capacidad–coste y recomendar modelos adecuados.
Bajo este marco, esta tesis demuestra cómo los benchmarks centrados en un área del conocimiento concreta pueden aprovecharse para validar empíricamente el marco ML-Compass y explotar plenamente su metodología propuesta. Utilizando HealthBench, un benchmark clínico de LLM de última generación, construimos un conjunto de datos de validación personalizado, vinculando métricas internas de capacidad y coste de los modelos con medidas de utilidad percibida, derivadas de las evaluaciones clínicas basadas en las rúbricas de HealthBench.
A través de la selección y caracterización de múltiples LLMs y la generación y evaluación a gran escala de respuestas de conversaciones médicas, se ha ejecutado HealthBench sobre un conjunto de 33 LLMs. A partir de estos resultados, se estiman funciones de utilidad para capturar la utilidad percibida por el usuario bajo condiciones contextuales específicas.</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Large Language Models (LLMs) have become a crucial technology for multiple organizational domains, offering important improvements in efficiency, quality, and process scalability. However, their responsible deployment presents challenges related to performance, resource consumption, regulation, and alignment with user preferences. Model selection based solely on capability or performance metrics is insufficient to support informed decision-making in real-world scenarios. 
Within this setting, the ML-Compass research project emerges as an optimization framework developed to support machine learning (ML) deployment decisions from an operations management perspective. It provides a unifying framework that formulates the selection as a constrained optimization problem, offering a theoretical foundation coupled with a practical pipeline to target capability–cost profiles and recommend suitable models.
Under this framework, this thesis demonstrates how domain-specific benchmarks can be leveraged to empirically validate the ML-Compass framework and fully exploit its proposed methodology. Using HealthBench, a state-of-the-art clinical LLM benchmark, a customized validation dataset is constructed; linking internal model capability and cost metrics with measures of perceived utility, derived from the rubric-based clinical evaluations of HealthBench.
Through the selection and characterization of multiple LLMs and the large-scale generation and evaluation of responses of medical conversations, HealthBench is executed across a set of 33 LLMs. Based on these results, utility functions are estimated to capture user-perceived utility under specific contextual conditions. Using multi-objective optimization techniques, capability–cost technological frontiers are constructed, and the full ML-Compass pipeline is implemented and executed.</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Outgoing</subfield>
   </datafield>
   <datafield ind1="8" ind2=" " tag="024">
      <subfield code="a">https://hdl.handle.net/2117/457646</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Àrees temàtiques de la UPC::Física</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Natural language processing</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Machine learning</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Statistical decision</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Benchmarking</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Capability–Cost Trade-offs</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Deployment-Aware Model Selection</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Deployment-Aware Optimization</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Distributed Computing</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Few-Shot Learning</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Few-Shot Prompting</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">GPU Clusters</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Healthcare AI</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">High-Performance Computing</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Large Language Models</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Large-Scale Inference</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">ML-Compass Framework</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Model Evaluation</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Model Selection</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Multi-Objective Optimization</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Operations Management</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Organizational Man</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Processament del llenguatge natural</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Aprenentatge automàtic</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Decisió, Presa de (Estadística)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Classificació AMS::68 Computer science::68T Artificial intelligence</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Classificació AMS::90 Operations research, mathematical programming::90B Operations research and management science</subfield>
   </datafield>
   <datafield ind2="0" ind1="0" tag="245">
      <subfield code="a">Using domain specific benchmarks for responsible LLM deployment</subfield>
   </datafield>
</record></metadata></record></GetRecord></OAI-PMH>