2026-04-17T21:20:05Zhttps://recercat.cat/oai/request

oai:recercat.cat:2117/4494542026-01-20T10:49:26Zcom_2072_1033col_2072_452951

Automated validation of cyber threats detection logic using large language models Martínez Pamias, Sergi Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors Nestlé España Paredes Oliva, Ignasi Barlet Ros, Pere Àrees temàtiques de la UPC::Informàtica::Seguretat informàtica Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural Computer security Natural language processing (Computer science) Software engineering Ciberseguretat Detecció d'amenaces cibernètiques Regles de detecció Validació automatitzada Models de llenguatge extens Generació de dades sintètiques Enginyeria de prompting Generació amb recuperació augmentada Centre d'operacions de ciberseguretat Detecció i resposta en endpoints Processament de llenguatge natural Intel·ligència artificial generativa Aprenentatge automàtic Control de qualitat en ciberseguretat Cybersecurity Cyber threat detection Detection rules Automated validation Large language models Synthetic data generation Prompt engineering Retrieval-augmented generation Security operations center Endpoint detection and response Natural language processing Generative AI Machine learning Synthetic test data Quality assurance in cybersecurity Seguretat informàtica Tractament del llenguatge natural (Informàtica) Enginyeria de programari Les regles de detecció personalitzades són essencials en qualsevol Centre d'Operacions de Ciberseguretat per protegir els actius de l'organització contra noves amenaces cibernètiques. Els processos de garantia de qualitat d'aquests sistemes de detecció, però, sovint és manual i limitada en la seva cobertura. Aquesta tesi explora un nou enfocament per automatitzar la validació de les regles de detecció d'amenaces cibernètiques mitjançant Large Language Models (LLMs). El sistema genera dades de prova sintètiques adaptades a la lògica específica de detecció, per activar-la de manera efectiva i verificar la funcionalitat de les regles de seguretat en un entorn controlat. L'enfocament explora l'ús de prompting estructurat i retrieval-augmented generation per millorar la qualitat dels casos de prova generats. Els resultats experimentals mostren la capacitat del model per activar les regles de detecció de manera fiable i identificar problemes, oferint una solució rendible i escalable per a la validació contínua en operacions de ciberseguretat. Custom detection rules are essential in every Cyber Security Operations Center to protect the organization's assets against new cyber threats. Despite this, quality assurance processes for these detection systems is often manual and limited in its coverage. This thesis explores a new approach to automating the validation of cyber threat detection rules using Large Language Models (LLMs). The system generates synthetic test data tailored to specific detection logic, to effectively trigger it and verify the functionality of security rules in a controlled environment. The approach explores structured prompting and retrieval-augmented generation to improve the quality of the generated test cases. Experimental results show the model's capability to activate detection rules reliably and identify issues, offering a cost-effective and scalable solution for continuous validation in cybersecurity operations. Las reglas de detección personalizadas son esenciales en cualquier Centro de Operaciones de Ciberseguridad para proteger los activos de la organización frente a nuevas amenazas cibernéticas. Sin embargo, la garantía de calidad de estos sistemas de detección suele ser manual y limitada en su cobertura. Esta tesis explora un nuevo enfoque para automatizar la validación de las reglas de detección de amenazas cibernéticas utilizando Large Language Models (LLMs). El sistema genera datos de prueba sintéticos adaptados a la lógica específica de detección, para activarla eficazmente y verificar la funcionalidad de las reglas de seguridad en un entorno controlado. El enfoque explora el uso de prompting estructurado y retrieval-augmented generation para mejorar la calidad de los casos de prueba generados. Los resultados experimentales muestran la capacidad del modelo para activar las reglas de detección de manera fiable e identificar problemas, ofreciendo una solución rentable y escalable para la validación continua en operaciones de ciberseguridad. 2025-06-26 Bachelor thesis https://hdl.handle.net/2117/449454 198927 eng Restricted access - confidentiality agreement application/pdf Universitat Politècnica de Catalunya