Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
University of Oxford
Orfanoudaki, Agni
2026-02-24
Els Grans Models de Llenguatge (LLMs) s’han convertit en una tecnologia crucial per a múltiples dominis organitzatius, oferint millores importants en eficiència, qualitat i escalabilitat dels processos. Tanmateix, el seu desplegament responsable presenta reptes relacionats amb el rendiment, el consum de recursos, la regulació i l’alineació amb les preferències dels usuaris. La selecció de models basada únicament en mètriques de capacitat o rendiment és insuficient per donar suport a una presa de decisions informada en escenaris del món real. Dins d’aquest context, el projecte de recerca ML-Compass emergeix com un marc d’optimització desenvolupat per donar suport a decisions de desplegament d’aprenentatge automàtic des d’una perspectiva de gestió d’operacions. Proporciona un marc unificador que formula la selecció com un problema d’optimització amb restriccions, oferint una base teòrica juntament amb una pipeline pràctica per orientar perfils de capacitat–cost i recomanar models adequats. Sota aquest marc, aquesta tesi demostra com els benchmarks específics d'un domini concret poden ser aprofitats per validar empíricament el marc ML-Compass i explotar plenament la metodologia proposada. Utilitzant HealthBench, un benchmark clínic de LLM d’última generació, es construeix un conjunt de dades de validació personalitzat, vinculant mètriques internes de capacitat i cost dels models amb mesures d’utilitat percebuda, derivades de les avaluacions clíniques basades en rúbriques de HealthBench. Mitjançant la selecció i caracterització de múltiples LLMs i la generació i avaluació a gran escala de respostes de converses mèdiques, HealthBench s’executa sobre un conjunt de 33 LLMs. A partir d’aquests resultats, s’estimen funcions d’utilitat per capturar la utilitat percebuda per l’usuari sota condicions contextuals específiques.
Los Grandes Modelos de Lenguaje (LLMs) se han convertido en una tecnología crucial para múltiples dominios organizativos, ofreciendo importantes mejoras en eficiencia, calidad y escalabilidad de procesos. Sin embargo, su despliegue responsable presenta desafíos relacionados con el rendimiento, el consumo de recursos, la regulación y la alineación con las preferencias de los usuarios. La selección de modelos basada únicamente en métricas de capacidad o rendimiento es insuficiente para apoyar una toma de decisiones informada en escenarios del mundo real. Dentro de este contexto, el proyecto de investigación ML-Compass surge como un marco de optimización desarrollado para apoyar decisiones de despliegue de aprendizaje automático desde una perspectiva de gestión de operaciones. Proporciona un marco unificador que formula la selección como un problema de optimización con restricciones, ofreciendo una base teórica junto con una pipeline práctica para orientar perfiles de capacidad–coste y recomendar modelos adecuados. Bajo este marco, esta tesis demuestra cómo los benchmarks centrados en un área del conocimiento concreta pueden aprovecharse para validar empíricamente el marco ML-Compass y explotar plenamente su metodología propuesta. Utilizando HealthBench, un benchmark clínico de LLM de última generación, construimos un conjunto de datos de validación personalizado, vinculando métricas internas de capacidad y coste de los modelos con medidas de utilidad percibida, derivadas de las evaluaciones clínicas basadas en las rúbricas de HealthBench. A través de la selección y caracterización de múltiples LLMs y la generación y evaluación a gran escala de respuestas de conversaciones médicas, se ha ejecutado HealthBench sobre un conjunto de 33 LLMs. A partir de estos resultados, se estiman funciones de utilidad para capturar la utilidad percibida por el usuario bajo condiciones contextuales específicas.
Large Language Models (LLMs) have become a crucial technology for multiple organizational domains, offering important improvements in efficiency, quality, and process scalability. However, their responsible deployment presents challenges related to performance, resource consumption, regulation, and alignment with user preferences. Model selection based solely on capability or performance metrics is insufficient to support informed decision-making in real-world scenarios. Within this setting, the ML-Compass research project emerges as an optimization framework developed to support machine learning (ML) deployment decisions from an operations management perspective. It provides a unifying framework that formulates the selection as a constrained optimization problem, offering a theoretical foundation coupled with a practical pipeline to target capability–cost profiles and recommend suitable models. Under this framework, this thesis demonstrates how domain-specific benchmarks can be leveraged to empirically validate the ML-Compass framework and fully exploit its proposed methodology. Using HealthBench, a state-of-the-art clinical LLM benchmark, a customized validation dataset is constructed; linking internal model capability and cost metrics with measures of perceived utility, derived from the rubric-based clinical evaluations of HealthBench. Through the selection and characterization of multiple LLMs and the large-scale generation and evaluation of responses of medical conversations, HealthBench is executed across a set of 33 LLMs. Based on these results, utility functions are estimated to capture user-perceived utility under specific contextual conditions. Using multi-objective optimization techniques, capability–cost technological frontiers are constructed, and the full ML-Compass pipeline is implemented and executed.
Outgoing
Bachelor thesis
English
Àrees temàtiques de la UPC::Física; Natural language processing; Machine learning; Statistical decision; Benchmarking; Capability–Cost Trade-offs; Deployment-Aware Model Selection; Deployment-Aware Optimization; Distributed Computing; Few-Shot Learning; Few-Shot Prompting; GPU Clusters; Healthcare AI; High-Performance Computing; Large Language Models; Large-Scale Inference; ML-Compass Framework; Model Evaluation; Model Selection; Multi-Objective Optimization; Operations Management; Organizational Man; Processament del llenguatge natural; Aprenentatge automàtic; Decisió, Presa de (Estadística); Classificació AMS::68 Computer science::68T Artificial intelligence; Classificació AMS::90 Operations research, mathematical programming::90B Operations research and management science
Universitat Politècnica de Catalunya
http://creativecommons.org/licenses/by-nc-nd/4.0/
Open Access
Attribution-NonCommercial-NoDerivs 4.0 International
Treballs acadèmics [82502]