2026-04-13T00:52:28Zhttps://recercat.cat/oai/request

oai:recercat.cat:2117/4458282025-11-13T09:57:21Zcom_2072_1033col_2072_452951

Sinergies between Kernel Methods and Random Forest Classifiers Vidal Camps, Joan Ot Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic Machine learning Data mining Support Vector Machines Mètodes Kernel Boscos Aleatoris Màquines de Vectors de Suport Models híbrids Aprenentatge per ensamblatge Classificació Arquitectura stacking Extracció de característiques Aprenentatge supervisat Funció Kernel Kernel Methods Random Forests Support Vector Machines Hybrid Models Ensemble Learning Classification Stacking Architecture Feature Extraction Supervised Learning Kernel Function Aprenentatge automàtic Mineria de dades La classificació continua sent un repte central dins de l'aprenentatge automàtic, especialment en entorns amb dades heterogènies, de gran dimensionalitat o amb soroll. Entre els classificadors més utilitzats, les Màquines de Vectors de Suport (SVM) i els Boscos Aleatoris (RF) ofereixen punts forts complementaris: les SVM, basades en m'etodes de nucli, són molt eficaces per definir fronteres de decisió complexes i no lineals, mentre que els RF són models d'ensamblatge coneguts per la seva robustesa, escalabilitat i capacitat per tractar de manera nativa dades diverses, incloent-hi variables categòriques i valors absents. Aquest projecte explora com la hibridació entre SVM i RF pot ajudar a superar les seves limitacions individuals i aprofitar els avantatges combinats. Es proposen i analitzen dues arquitectures d'ensamblatge del tipus stacking: (1) SVM millorades amb RF, on els Boscos Aleatoris actuen com a extractors de característiques que alimenten una SVM amb kernels personalitzats, i (2) RF millorades amb SVM, on cada arbre incorpora una SVM a les fulles per afinar les fronteres de decisió locals. S'han considerat diverses estratègies d'extracció de característiques a partir dels RF -incloenthi prediccions dures i suaus, camins de decisió i índexs de fulles- i s'han definit funcions de nucli específiques per aprofitar al màxim l'estructura d'aquestes representacions. Els resultats experimentals en diversos conjunts de dades mostren que aquests models híbrids superen els models tradicionals de SVM i RF en tasques amb grans volums de dades, variables categòriques i valors absents, suggerint que una combinació ben dissenyada de mètodes de nucli i ensamblatges pot donar lloc a classificadors més potents i flexibles. Classification remains a central challenge in machine learning, particularly in heterogeneous, high-dimensional, or noisy data settings. Among the most widely used classifiers, Support Vector Machines and Random Forests (RFs) offer distinct strengths: SVMs are grounded in kernel theory and excel at defining complex, non-linear decision boundaries, while RFs are ensemble models known for their robustness, scalability, and ability to natively handle diverse data types, including categorical and missing values. This project explores how hybridizing SVMs and RFs can mitigate their individual limitations and leverage their complementary advantages. We propose and analyze two stacked ensemble architectures: (1) RF-Enhanced SVMs, where Random Forests act as data-driven feature extractors feeding into an SVM with custom-designed kernels, and (2) SVM-Enhanced RFs, where SVMs are embedded at the leaf level of decision trees to refine local decision boundaries. Several feature extraction strategies from the RFs are considered-including hard and soft predictions, tree paths, and leaf indices-and corresponding Kernel Functions are defined to fully exploit the structure of these new representations. Experimental results across multiple datasets demonstrate that these hybrid models outperform standard SVMs and RFs in tasks involving large-scale data, categorical variables, and missing values, suggesting that carefully designed combinations of kernel methods and ensemble learners can lead to more flexible and powerful classifiers. 2025-11-13T09:57:21Z 2025-11-13T09:57:21Z 2025-11-13T09:57:21Z 2025-06-27 Bachelor thesis http://hdl.handle.net/2117/445828 Open Access Universitat Politècnica de Catalunya