Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Escudero Bakx, Gerard
2025-10-24
This Final Degree Project evaluates the performance of large language models (LLMs) in the automatic generation and correction of programming code, with a focus on their potential application in computer science education. To achieve this, a novel deterministic and reproducible evaluation methodology was designed specifically for this work, integrating an automated pipeline with the Jutge.org online judge to objectively validate the functionality of the solutions generated by the models. The experimentation was carried out in two stages. In the first stage, a wide set of open-source models was tested to identify promising candidates. In the second stage, a deeper analysis was conducted on two models of the DeepSeek-R1-distill family (1.5B and 7B parameters), using ChatGPT-4o as an external reference. The evaluation considered both the models' ability to generate new solutions and to correct erroneous code submissions. The results show that scaling the number of parameters significantly improves performance: DeepSeek-R1-distill 1.5B achieved an acceptance rate of ~11%, while the 7B version reached ~35%. However, these results remain far below the ~72% obtained with ChatGPT-4o, confirming the gap between open-source mid-sized models and state-of-the-art proprietary alternatives. Execution times also increased substantially with model size, raising important considerations about efficiency and practical deployment. As a global conclusion, the study highlights that, under current conditions, it is more convenient and advantageous to employ advanced models through APIs rather than relying on locally executed mid-scale models. Future work should expand the range of problems and languages, refine dataset construction, and explore qualitative aspects such as the ability to explain or comment on generated code.
Aquest Treball de Fi de Grau avalua el rendiment dels models de llenguatge de gran mida (LLMs) en la generació i correcció automàtica de codi de programació, amb una atenció especial a la seva possible aplicació en l’ensenyament de la informàtica. Per aconseguir-ho es va dissenyar, de manera original en aquest treball, una metodologia d’avaluació determinista i reproduïble, basada en un flux automatitzat que integra el jutge en línia Jutge.org per validar de manera objectiva la funcionalitat de les solucions generades pels models. L’experimentació es va desenvolupar en dues etapes. A la primera, es va avaluar un conjunt ampli de models de codi obert per identificar els més prometedors. A la segona, es va analitzar en profunditat el rendiment de dos models de la família DeepSeek-R1-distill (1.5B i 7B paràmetres), utilitzant ChatGPT-4o com a referència externa. L’avaluació va considerar tant la capacitat dels models per generar noves solucions com per corregir enviaments de codi erroni. Els resultats mostren que l’increment en el nombre de paràmetres millora significativament el rendiment: DeepSeek-R1-distill 1.5B va aconseguir una taxa d’encerts d’un ~11%, mentre que la versió de 7B va arribar al ~35%. Tanmateix, aquests resultats se situen molt per sota del ~72% obtingut amb ChatGPT-4o, la qual cosa confirma la bretxa existent entre els models de codi obert de mida mitjana i les alternatives propietàries d’última generació. A més, el temps d’execució va créixer de manera considerable amb la mida del model, cosa que planteja qüestions d’eficiència i viabilitat pràctica. Com a conclusió global, l’estudi destaca que, en les condicions actuals, resulta més convenient i avantatjós utilitzar models avançats mitjançant APIs que dependre de models d’escala mitjana executats localment. Futures investigacions haurien d’ampliar el nombre de problemes i llenguatges, refinar la construcció del conjunt de dades i explorar aspectes qualitatius, com la capacitat dels models per explicar o comentar el codi generat.
Este Trabajo de Fin de Grado evalúa el rendimiento de los modelos de lenguaje de gran tamaño (LLMs) en la generación y corrección automática de código de programación, con especial atención a su posible aplicación en la enseñanza de la informática. Para ello se diseñó, de forma original en este trabajo, una metodología de evaluación determinista y reproducible, basada en un flujo automatizado que integra el juez en línea Jutge.org para validar de manera objetiva la funcionalidad de las soluciones generadas por los modelos. La experimentación se desarrolló en dos etapas. En la primera, se evaluó un conjunto amplio de modelos de código abierto para identificar los más prometedores. En la segunda, se analizó en profundidad el rendimiento de dos modelos de la familia DeepSeek-R1-distill (1.5B y 7B parámetros), utilizando ChatGPT-4o como referencia externa. La evaluación consideró tanto la capacidad de los modelos para generar nuevas soluciones como para corregir envíos de código erróneo. Los resultados muestran que el aumento en el número de parámetros mejora significativamente el rendimiento: DeepSeek-R1-distill 1.5B alcanzó una tasa de aciertos de ~11%, mientras que la versión de 7B llegó al ~35%. No obstante, estos resultados se sitúan muy por debajo del ~72% obtenido con ChatGPT-4o, lo que confirma la brecha existente entre los modelos de código abierto de tamaño medio y las alternativas propietarias de última generación. Además, el tiempo de ejecución creció de manera considerable con el tamaño del modelo, lo que plantea cuestiones de eficiencia y viabilidad práctica. Como conclusión global, el estudio destaca que, en las condiciones actuales, resulta más conveniente y ventajoso utilizar modelos avanzados a través de APIs que depender de modelos de escala media ejecutados localmente. Futuras investigaciones deberían ampliar el número de problemas y lenguajes, refinar la construcción del conjunto de datos y explorar aspectos cualitativos, como la capacidad de los modelos para explicar o comentar el código generado.
Bachelor thesis
Spanish
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial; Software engineering; Education--Data processing; Artificial intelligence; Enginyeria de programari; Ordinadors en l'ensenyament; Intel·ligència artificial
Universitat Politècnica de Catalunya
Open Access
Treballs acadèmics [82541]