Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
Otero Calviño, Beatriz
2021-07
Malicious websites are currently one of the most severe threats to internet users. Traditional methods that detect malicious websites, such as blacklists, do not update frequently, and they cannot detect new attackers. To address this need, we propose a system that can be inserted into a firewall or Google Chrome extension. Starting with a dataset that contains both malicious and benign websites, we classify it by extracting numerous features. Furthermore, the features are parsed, analyzed, and preprocessed to create easily separable and categorized data. With the preprocessed data, the study proposes a Deep Learning (DL) model to classify each sample. The model consists of a Feed-Forward Neural Network (FFNN). We evaluate different combinations of neurons in the model and computes an in-depth study of the best performing network. Our results show up to 99.88% of detection of malicious websites and 2.61% of false hits (i.e. malicious websites classified as benign). Additionally, the system was tested with 10000 unseen websites, and the false hit rate decreased to 1.026%. To approach the system to end-users, an interface is created to insert the suspicious URL and return the prediction output. The interface response time gives a mean response time of 2.53 seconds. This value is beneath the 4-second limit where the user's start to lose attention. Overall, the proposed system can correctly classify both previously seen and unseen data, protecting thus against new attackers. Additionally, the interface creates a space where the user can quickly consult the URL maliciousness.
Hoy en día, las páginas web maliciosas son una de las mayores amenazas que pueden tener los usuarios de internet. Los métodos tradicionales para detectar páginas web maliciosas, como las listas negras, no se actualizan con la rapidez necesaria para poder identificar con precisión nuevos tipos de ataques en la web. Para solucionar esta necesidad proponemos un sistema que se puede añadir en un cortafuegos o en una extensión de Google Chrome. Empezando con un conjunto de datos (dataset) que contiene páginas web maliciosas y benignas, los clasificamos extrayendo numerosos atributos. Además, los atributos se formatean, se analizan y se procesan previamente para crear datos fácilmente separables y clasificables. El modelo consiste en una red neuronal prealimentada (FFNN). Evaluamos distintas combinaciones de neuronas en el modelo y realizamos un estudio en profundidad de la red con mejor rendimiento. Nuestros resultados muestran una precisión de detección de páginas web maliciosas de hasta el 99,88% y, un 2,61% de detección de falso positivo (es decir, sitios web malignos clasificados como benignos). El sistema ha sido probado con 10.000 páginas webs no vistas previamente y la detección de falso positivo disminuye hasta el 1,026%. Para hacer más accesible el sistema a los usuarios finales, se desarrolla una interfaz gráfica que al insertar una URL sospechosa devuelve el resultado obtenido de esta. También se estudia el tiempo de respuesta de la interfaz. Este proporciona un valor medio de 2,53 segundos, que es un valor inferior al límite de 4 segundos en que el usuario empieza a perder la atención. En general el sistema propuesto es capaz de clasificar correctamente los datos tanto vistos con anterioridad como los que no. Por tanto, protege de nuevos ataques. Aparte, la interfaz crea un espacio donde el usuario puede consultar rápidamente la malicia de la URL.
Les webs malicioses en aquest moment són una de les amenaces més grans que poden tenir els usuaris d'internet. Els mètodes tradicionals que detecten pàgines web malicioses, com les llistes negres, no s'actualitzen amb la rapidesa necessària per poder detectar amb precisió nous atacs a la web. Per a solucionar aquesta necessitat proposem un sistema que es pot afegir a un tallafoc o una extensió de Google Chrome. Començant amb un conjunt de dades (dataset) que conté llocs web malicioses i benignes, els classifiquem traient nombrosos atributs. Addicionalment, els atributs es formaten, s'analitzen i es processen prèviament per crear dades fàcilment separables i classificables. Amb les dades processades, l'estudi proposa un model d'Aprenentatge Profund (DL) per a classificar cada mostra. El model consisteix en una xarxa neuronal directa (FFNN). Avaluem diferents combinacions de neurones al model i realitzem un estudi en profunditat de la xarxa amb millor rendiment. Els nostres resultats mostren una precisió de detecció de pàgines web malicioses de fins al 99,88% i el 2,61% de detecció de fals positiu (és a dir, llocs web malignes classificats com a benignes). A part, el sistema ha estat provat amb 10.000 llocs webs no vistos prèviament i la detecció de fals positiu disminueix fins a l'1,026%. Per fer més accessible el sistema als usuaris finals, es desenvolupa una interfície que a l'inserir una URL sospitosa retorna el resultat obtingut d'aquesta. El temps de resposta d'aquesta interfície dóna un valor mitjà de 2,53 segons, que és un valor inferior al límit de 4 segons en què l'usuari comença a perdre l'atenció. En general, el sistema proposat és capaç de classificar correctament les dades vistes amb anterioritat i les que no. Per tant, protegeix contra nous atacants. A més, la interfície crea un espai on l'usuari pot consultar ràpidament la malícia de la URL.
Bachelor thesis
English
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic; Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Telemàtica i xarxes d'ordinadors; Machine learning; Computer security; Neural networks (Computer science); URL; Deep Learning; malicious websites; feed-forward neural network; preprocessing; páginas web maliciosas; preprocesado; Aprenentatge automàtic; Seguretat informàtica; Xarxes neuronals (Informàtica)
Universitat Politècnica de Catalunya
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
Open Access
Treballs acadèmics [82539]