dc.contributor |
Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa |
dc.contributor |
Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics |
dc.contributor |
Universitat Politècnica de Catalunya. KEMLG - Grup d'Enginyeria del Coneixement i Aprenentatge Automàtic |
dc.contributor.author |
Gibert, Karina |
dc.contributor.author |
Oliva, Luis |
dc.contributor.author |
Pinyol, Isaac |
dc.contributor.author |
Sànchez-Marrè, Miquel |
dc.date |
2006-07 |
dc.identifier.citation |
Gibert, Karina, Oliva, L., Pinyol, I., Sànchez-Marrè, M. "El bagging en casos no supervisats: Implementació a GESCONDA per algoritmes de clustering". 2006. |
dc.identifier.uri |
http://hdl.handle.net/2117/86168 |
dc.language.iso |
eng |
dc.relation |
LSI-06-2-T |
dc.rights |
info:eu-repo/semantics/openAccess |
dc.subject |
Àrees temàtiques de la UPC::Informàtica::Informàtica teòrica |
dc.subject |
Bagging |
dc.subject |
Inertia |
dc.subject |
Entropy |
dc.subject |
Mutual information |
dc.subject |
Clustering |
dc.subject |
Data mining |
dc.title |
El bagging en casos no supervisats: Implementació a GESCONDA per algoritmes de clustering |
dc.type |
info:eu-repo/semantics/publishedVersion |
dc.type |
info:eu-repo/semantics/report |
dc.description.abstract |
Els algorismes de clustering per entorns no supervisats que es basen en una inicialització aleatòria (p. Ex.: tria inicial de llavors en l’algorisme Kmeans), presenten un problema a l’hora d’obtenir solucions fiables.
Una solució per eliminar aquest factor d’aleatorietat seria emprar altres tècniques d’inicialització. Però com es veurà posteriorment en l’article, aquestes tècniques tenen una altre problemàtica, i és la de
trobar solucions òptimes locals o solucions esbiaixades.
La solució que es proposa és la utilització de la tècnica de bagging que s’usa en entorns supervisats, i que a través de la unió de diversos resultats de classificació respecte unes mateixes dades, permet obtenir particions òptimes.
Així mateix, es va implementar tres formes de dur a terme el bagging segons la forma de seleccionar la classificació de referència a partir de la qual s’uneixen la resta de classificacions. Aquestes tres tècniques són: agafant la primera classificació, triant la que presenta una major inèrcia (relació variança entre-classes i intra-classes) i triant la que aporta una major informació (mitjançant el càlcul d’Informació Mútua de Shannon).
Finalment es van provar les tècniques d’inèrcia i informació mútua amb dades ambientals reals preses d’una depuradora d’aigües residuals, per tal de comprovar l’efectivitat dels resultats respecte al mètode tradicional.
Totes les implementacions i proves es van dur a terme sobre el Sistema
Intel·ligent d’Anàlisi de Dades GESCONDA, el qual es descriurà en el pròxim apartat.
L’estudi finalitza amb una breu discussió dels resultats obtinguts i unes conclusions sobre el treball realitzat. |