A comparative study of feature redundancy and interpretable machine learning models for EEG-based stroke classification

Valchev, Stoyan; Valchev, Stoyan

A comparative study of feature redundancy and interpretable machine learning models for EEG-based stroke classification

Author

Valchev, Stoyan

Other authors

Universitat Politècnica de Catalunya. Departament d'Enginyeria Minera, Industrial i TIC

Rodriguez Rivero, Cristian Maximiliano

Rajan, Ginu

Publication date

2026-01-20

Abstract

L’electroencefalografia (EEG) s’ha explorat de manera creixent com a eina complementària per a la detecció i la caracterització de l’ictus, gràcies a la seva portabilitat i a la seva elevada resolució temporal. Tanmateix, els fluxos de processament quantitatiu d’EEG solen basar-se en conjunts de característiques d’alta dimensionalitat que presenten una redundància significativa, fet que pot comprometre l’estabilitat, la robustesa i la interpretabilitat dels models, especialment en aplicacions mèdiques crítiques per a la seguretat. Aquesta tesi investiga l’impacte de la redundància de característiques en models d’aprenentatge automàtic interpretables per a la classificació d’ictus basada en EEG. Es proposa un marc experimental controlat en què la redundància es quantifica i es redueix explícitament abans de l’entrenament dels models. S’utilitzen dades d’EEG sintètiques per permetre la manipulació sistemàtica del soroll i del solapament entre característiques, fet que permet aïllar els efectes de la redundància dels factors de confusió clínics. Diversos classificadors interpretables s’avaluen sota condicions idèntiques, i els conjunts de característiques conscients de la redundància es validen addicionalment quant a la seva plausibilitat fisiològica mitjançant dades reals d’EEG d’imatgeria motora. Els resultats demostren que la redundància de característiques influeix de manera significativa en la robustesa i l’estabilitat dels models. La reducció de la redundància millora la consistència del rendiment en classificadors lineals, especialment en condicions sorolloses, mentre que té efectes més limitats en models basats en arbres. Aquests resultats indiquen que la redundància de característiques constitueix una variable de disseny crítica en els fluxos de processament quantitatiu d’EEG i que hauria de ser abordada explícitament, en lloc de ser tractada com una qüestió secundària de preprocessament. Tot i que aquest treball no pretén establir validesa clínica, aporta coneixements metodològics rellevants per al desenvolupament de sistemes de suport a la decisió basats en EEG que siguin robustos i interpretables.

Electroencephalography (EEG) has been increasingly explored as a complementary tool for stroke detection and characterization due to its portability and high temporal resolution. However, quantitative EEG pipelines typically rely on high-dimensional feature sets that exhibit substantial redundancy, potentially impairing model stability, robustness, and interpretability, particularly in safety-critical medical applications. This thesis investigates the impact of feature redundancy on interpretable machine learning models for EEG-based stroke classification. A controlled experimental framework is proposed in which redundancy is explicitly quantified and reduced prior to model training. Synthetic EEG data are employed to enable systematic manipulation of noise and feature overlap, allowing redundancy effects to be isolated from clinical confounders. Multiple interpretable classifiers are evaluated under identical conditions, and redundancy-aware feature sets are further assessed for physiological plausibility using real EEG motor imagery data. The results demonstrate that feature redundancy meaningfully influences model robustness and stability, with redundancy reduction improving performance consistency in linear classifiers, particularly under noisy conditions, while having more limited effects on tree-based models. These findings indicate that feature redundancy constitutes a critical design variable in quantitative EEG pipelines and should be addressed explicitly rather than treated as a secondary preprocessing concern. While not intended to establish clinical validity, this work provides methodological insights relevant to the development of robust and interpretable EEG-based decision support systems.

Document Type

Master thesis

Language

English

Subjects and keywords

Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial; Artificial intelligence; Electroencephalography (EEG); Stroke Classification; Feature Redundancy; Interpretable Machine Learning; Quantitative EEG; Synthetic Data; Model Robustness; Intel·ligència artificial

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

http://creativecommons.org/licenses/by-sa/4.0/

Open Access

Attribution-ShareAlike 4.0 International

This item appears in the following Collection(s)

Treballs acadèmics [82483]