Malicious websites blocking system using Deep Learning algorithms

Gutiérrez, Norma; Gutiérrez, Norma

Malicious websites blocking system using Deep Learning algorithms

Author

Gutiérrez, Norma

Other authors

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Otero Calviño, Beatriz

Publication date

2021-07

Abstract

Malicious websites are currently one of the most severe threats to internet users. Traditional methods that detect malicious websites, such as blacklists, do not update frequently, and they cannot detect new attackers. To address this need, we propose a system that can be inserted into a firewall or Google Chrome extension. Starting with a dataset that contains both malicious and benign websites, we classify it by extracting numerous features. Furthermore, the features are parsed, analyzed, and preprocessed to create easily separable and categorized data. With the preprocessed data, the study proposes a Deep Learning (DL) model to classify each sample. The model consists of a Feed-Forward Neural Network (FFNN). We evaluate different combinations of neurons in the model and computes an in-depth study of the best performing network. Our results show up to 99.88% of detection of malicious websites and 2.61% of false hits (i.e. malicious websites classified as benign). Additionally, the system was tested with 10000 unseen websites, and the false hit rate decreased to 1.026%. To approach the system to end-users, an interface is created to insert the suspicious URL and return the prediction output. The interface response time gives a mean response time of 2.53 seconds. This value is beneath the 4-second limit where the user's start to lose attention. Overall, the proposed system can correctly classify both previously seen and unseen data, protecting thus against new attackers. Additionally, the interface creates a space where the user can quickly consult the URL maliciousness.

Hoy en día, las páginas web maliciosas son una de las mayores amenazas que pueden tener los usuarios de internet. Los métodos tradicionales para detectar páginas web maliciosas, como las listas negras, no se actualizan con la rapidez necesaria para poder identificar con precisión nuevos tipos de ataques en la web. Para solucionar esta necesidad proponemos un sistema que se puede añadir en un cortafuegos o en una extensión de Google Chrome. Empezando con un conjunto de datos (dataset) que contiene páginas web maliciosas y benignas, los clasificamos extrayendo numerosos atributos. Además, los atributos se formatean, se analizan y se procesan previamente para crear datos fácilmente separables y clasificables. El modelo consiste en una red neuronal prealimentada (FFNN). Evaluamos distintas combinaciones de neuronas en el modelo y realizamos un estudio en profundidad de la red con mejor rendimiento. Nuestros resultados muestran una precisión de detección de páginas web maliciosas de hasta el 99,88% y, un 2,61% de detección de falso positivo (es decir, sitios web malignos clasificados como benignos). El sistema ha sido probado con 10.000 páginas webs no vistas previamente y la detección de falso positivo disminuye hasta el 1,026%. Para hacer más accesible el sistema a los usuarios finales, se desarrolla una interfaz gráfica que al insertar una URL sospechosa devuelve el resultado obtenido de esta. También se estudia el tiempo de respuesta de la interfaz. Este proporciona un valor medio de 2,53 segundos, que es un valor inferior al límite de 4 segundos en que el usuario empieza a perder la atención. En general el sistema propuesto es capaz de clasificar correctamente los datos tanto vistos con anterioridad como los que no. Por tanto, protege de nuevos ataques. Aparte, la interfaz crea un espacio donde el usuario puede consultar rápidamente la malicia de la URL.

Les webs malicioses en aquest moment són una de les amenaces més grans que poden tenir els usuaris d'internet. Els mètodes tradicionals que detecten pàgines web malicioses, com les llistes negres, no s'actualitzen amb la rapidesa necessària per poder detectar amb precisió nous atacs a la web. Per a solucionar aquesta necessitat proposem un sistema que es pot afegir a un tallafoc o una extensió de Google Chrome. Començant amb un conjunt de dades (dataset) que conté llocs web malicioses i benignes, els classifiquem traient nombrosos atributs. Addicionalment, els atributs es formaten, s'analitzen i es processen prèviament per crear dades fàcilment separables i classificables. Amb les dades processades, l'estudi proposa un model d'Aprenentatge Profund (DL) per a classificar cada mostra. El model consisteix en una xarxa neuronal directa (FFNN). Avaluem diferents combinacions de neurones al model i realitzem un estudi en profunditat de la xarxa amb millor rendiment. Els nostres resultats mostren una precisió de detecció de pàgines web malicioses de fins al 99,88% i el 2,61% de detecció de fals positiu (és a dir, llocs web malignes classificats com a benignes). A part, el sistema ha estat provat amb 10.000 llocs webs no vistos prèviament i la detecció de fals positiu disminueix fins a l'1,026%. Per fer més accessible el sistema als usuaris finals, es desenvolupa una interfície que a l'inserir una URL sospitosa retorna el resultat obtingut d'aquesta. El temps de resposta d'aquesta interfície dóna un valor mitjà de 2,53 segons, que és un valor inferior al límit de 4 segons en què l'usuari comença a perdre l'atenció. En general, el sistema proposat és capaç de classificar correctament les dades vistes amb anterioritat i les que no. Per tant, protegeix contra nous atacants. A més, la interfície crea un espai on l'usuari pot consultar ràpidament la malícia de la URL.

Document Type

Bachelor thesis

Language

English

Subjects and keywords

Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic; Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Telemàtica i xarxes d'ordinadors; Machine learning; Computer security; Neural networks (Computer science); URL; Deep Learning; malicious websites; feed-forward neural network; preprocessing; páginas web maliciosas; preprocesado; Aprenentatge automàtic; Seguretat informàtica; Xarxes neuronals (Informàtica)

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'

Open Access

This item appears in the following Collection(s)

Treballs acadèmics [82539]

Malicious websites blocking system using Deep Learning algorithms

Author

Other authors

Publication date

Share

Abstract

Document Type

Language

Subjects and keywords

Publisher

Recommended citation

Export

Rights

This item appears in the following Collection(s)