dc.contributor
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
dc.contributor
Nestlé España
dc.contributor
Paredes Oliva, Ignasi
dc.contributor
Barlet Ros, Pere
dc.contributor.author
Martínez Pamias, Sergi
dc.date.issued
2025-06-26
dc.identifier
https://hdl.handle.net/2117/449454
dc.description.abstract
Les regles de detecció personalitzades són essencials en qualsevol Centre d'Operacions de Ciberseguretat per protegir els actius de l'organització contra noves amenaces cibernètiques. Els processos de garantia de qualitat d'aquests sistemes de detecció, però, sovint és manual i limitada en la seva cobertura. Aquesta tesi explora un nou enfocament per automatitzar la validació de les regles de detecció d'amenaces cibernètiques mitjançant Large Language Models (LLMs). El sistema genera dades de prova sintètiques adaptades a la lògica específica de detecció, per activar-la de manera efectiva i verificar la funcionalitat de les regles de seguretat en un entorn controlat. L'enfocament explora l'ús de prompting estructurat i retrieval-augmented generation per millorar la qualitat dels casos de prova generats. Els resultats experimentals mostren la capacitat del model per activar les regles de detecció de manera fiable i identificar problemes, oferint una solució rendible i escalable per a la validació contínua en operacions de ciberseguretat.
dc.description.abstract
Custom detection rules are essential in every Cyber Security Operations Center to protect the organization's assets against new cyber threats. Despite this, quality assurance processes for these detection systems is often manual and limited in its coverage. This thesis explores a new approach to automating the validation of cyber threat detection rules using Large Language Models (LLMs). The system generates synthetic test data tailored to specific detection logic, to effectively trigger it and verify the functionality of security rules in a controlled environment. The approach explores structured prompting and retrieval-augmented generation to improve the quality of the generated test cases. Experimental results show the model's capability to activate detection rules reliably and identify issues, offering a cost-effective and scalable solution for continuous validation in cybersecurity operations.
dc.description.abstract
Las reglas de detección personalizadas son esenciales en cualquier Centro de Operaciones de Ciberseguridad para proteger los activos de la organización frente a nuevas amenazas cibernéticas. Sin embargo, la garantía de calidad de estos sistemas de detección suele ser manual y limitada en su cobertura. Esta tesis explora un nuevo enfoque para automatizar la validación de las reglas de detección de amenazas cibernéticas utilizando Large Language Models (LLMs). El sistema genera datos de prueba sintéticos adaptados a la lógica específica de detección, para activarla eficazmente y verificar la funcionalidad de las reglas de seguridad en un entorno controlado. El enfoque explora el uso de prompting estructurado y retrieval-augmented generation para mejorar la calidad de los casos de prueba generados. Los resultados experimentales muestran la capacidad del modelo para activar las reglas de detección de manera fiable e identificar problemas, ofreciendo una solución rentable y escalable para la validación continua en operaciones de ciberseguridad.
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
Restricted access - confidentiality agreement
dc.subject
Àrees temàtiques de la UPC::Informàtica::Seguretat informàtica
dc.subject
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural
dc.subject
Computer security
dc.subject
Natural language processing (Computer science)
dc.subject
Software engineering
dc.subject
Ciberseguretat
dc.subject
Detecció d'amenaces cibernètiques
dc.subject
Regles de detecció
dc.subject
Validació automatitzada
dc.subject
Models de llenguatge extens
dc.subject
Generació de dades sintètiques
dc.subject
Enginyeria de prompting
dc.subject
Generació amb recuperació augmentada
dc.subject
Centre d'operacions de ciberseguretat
dc.subject
Detecció i resposta en endpoints
dc.subject
Processament de llenguatge natural
dc.subject
Intel·ligència artificial generativa
dc.subject
Aprenentatge automàtic
dc.subject
Control de qualitat en ciberseguretat
dc.subject
Cyber threat detection
dc.subject
Detection rules
dc.subject
Automated validation
dc.subject
Large language models
dc.subject
Synthetic data generation
dc.subject
Prompt engineering
dc.subject
Retrieval-augmented generation
dc.subject
Security operations center
dc.subject
Endpoint detection and response
dc.subject
Natural language processing
dc.subject
Machine learning
dc.subject
Synthetic test data
dc.subject
Quality assurance in cybersecurity
dc.subject
Seguretat informàtica
dc.subject
Tractament del llenguatge natural (Informàtica)
dc.subject
Enginyeria de programari
dc.title
Automated validation of cyber threats detection logic using large language models