Using domain specific benchmarks for responsible LLM deployment

Martín Fernández, Gonzalo; Martín Fernández, Gonzalo

Using domain specific benchmarks for responsible LLM deployment

To access the full text documents, please follow this link: https://hdl.handle.net/2117/457646

Author

Martín Fernández, Gonzalo

Other authors

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

University of Oxford

Orfanoudaki, Agni

Publication date

2026-02-24

Abstract

Els Grans Models de Llenguatge (LLMs) s’han convertit en una tecnologia crucial per a múltiples dominis organitzatius, oferint millores importants en eficiència, qualitat i escalabilitat dels processos. Tanmateix, el seu desplegament responsable presenta reptes relacionats amb el rendiment, el consum de recursos, la regulació i l’alineació amb les preferències dels usuaris. La selecció de models basada únicament en mètriques de capacitat o rendiment és insuficient per donar suport a una presa de decisions informada en escenaris del món real. Dins d’aquest context, el projecte de recerca ML-Compass emergeix com un marc d’optimització desenvolupat per donar suport a decisions de desplegament d’aprenentatge automàtic des d’una perspectiva de gestió d’operacions. Proporciona un marc unificador que formula la selecció com un problema d’optimització amb restriccions, oferint una base teòrica juntament amb una pipeline pràctica per orientar perfils de capacitat–cost i recomanar models adequats. Sota aquest marc, aquesta tesi demostra com els benchmarks específics d'un domini concret poden ser aprofitats per validar empíricament el marc ML-Compass i explotar plenament la metodologia proposada. Utilitzant HealthBench, un benchmark clínic de LLM d’última generació, es construeix un conjunt de dades de validació personalitzat, vinculant mètriques internes de capacitat i cost dels models amb mesures d’utilitat percebuda, derivades de les avaluacions clíniques basades en rúbriques de HealthBench. Mitjançant la selecció i caracterització de múltiples LLMs i la generació i avaluació a gran escala de respostes de converses mèdiques, HealthBench s’executa sobre un conjunt de 33 LLMs. A partir d’aquests resultats, s’estimen funcions d’utilitat per capturar la utilitat percebuda per l’usuari sota condicions contextuals específiques.

Los Grandes Modelos de Lenguaje (LLMs) se han convertido en una tecnología crucial para múltiples dominios organizativos, ofreciendo importantes mejoras en eficiencia, calidad y escalabilidad de procesos. Sin embargo, su despliegue responsable presenta desafíos relacionados con el rendimiento, el consumo de recursos, la regulación y la alineación con las preferencias de los usuarios. La selección de modelos basada únicamente en métricas de capacidad o rendimiento es insuficiente para apoyar una toma de decisiones informada en escenarios del mundo real. Dentro de este contexto, el proyecto de investigación ML-Compass surge como un marco de optimización desarrollado para apoyar decisiones de despliegue de aprendizaje automático desde una perspectiva de gestión de operaciones. Proporciona un marco unificador que formula la selección como un problema de optimización con restricciones, ofreciendo una base teórica junto con una pipeline práctica para orientar perfiles de capacidad–coste y recomendar modelos adecuados. Bajo este marco, esta tesis demuestra cómo los benchmarks centrados en un área del conocimiento concreta pueden aprovecharse para validar empíricamente el marco ML-Compass y explotar plenamente su metodología propuesta. Utilizando HealthBench, un benchmark clínico de LLM de última generación, construimos un conjunto de datos de validación personalizado, vinculando métricas internas de capacidad y coste de los modelos con medidas de utilidad percibida, derivadas de las evaluaciones clínicas basadas en las rúbricas de HealthBench. A través de la selección y caracterización de múltiples LLMs y la generación y evaluación a gran escala de respuestas de conversaciones médicas, se ha ejecutado HealthBench sobre un conjunto de 33 LLMs. A partir de estos resultados, se estiman funciones de utilidad para capturar la utilidad percibida por el usuario bajo condiciones contextuales específicas.

Large Language Models (LLMs) have become a crucial technology for multiple organizational domains, offering important improvements in efficiency, quality, and process scalability. However, their responsible deployment presents challenges related to performance, resource consumption, regulation, and alignment with user preferences. Model selection based solely on capability or performance metrics is insufficient to support informed decision-making in real-world scenarios. Within this setting, the ML-Compass research project emerges as an optimization framework developed to support machine learning (ML) deployment decisions from an operations management perspective. It provides a unifying framework that formulates the selection as a constrained optimization problem, offering a theoretical foundation coupled with a practical pipeline to target capability–cost profiles and recommend suitable models. Under this framework, this thesis demonstrates how domain-specific benchmarks can be leveraged to empirically validate the ML-Compass framework and fully exploit its proposed methodology. Using HealthBench, a state-of-the-art clinical LLM benchmark, a customized validation dataset is constructed; linking internal model capability and cost metrics with measures of perceived utility, derived from the rubric-based clinical evaluations of HealthBench. Through the selection and characterization of multiple LLMs and the large-scale generation and evaluation of responses of medical conversations, HealthBench is executed across a set of 33 LLMs. Based on these results, utility functions are estimated to capture user-perceived utility under specific contextual conditions. Using multi-objective optimization techniques, capability–cost technological frontiers are constructed, and the full ML-Compass pipeline is implemented and executed.

Outgoing

Document Type

Bachelor thesis

Language

English

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

http://creativecommons.org/licenses/by-nc-nd/4.0/

Open Access

Attribution-NonCommercial-NoDerivs 4.0 International

This item appears in the following Collection(s)

Treballs acadèmics [82502]

Using domain specific benchmarks for responsible LLM deployment

Author

Other authors

Publication date

Share

Abstract

Document Type

Language

Subjects and keywords

Publisher

Recommended citation

Export

Rights

This item appears in the following Collection(s)