Resum:
|
Memòria elaborada a partir d’una estada al projecte Proteus de la New York University entre abril i juny del 2007. Les tècniques de clustering poden ajudar a reduir la supervisió en processos d’obtenció de patrons per a Extracció d’Informació. Tanmateix, és necessari disposar d’algorismes adequats a documents, i aquests algorismes requereixen mesures adequades de similitud entre
patrons. Els kernels poden oferir una solució a aquests problemes, però l’aprenentatge no
supervisat requereix d’estrat`egies m´es astutes que l’aprenentatge supervisat per a incorporar
major quantitat d’informació. En aquesta memòria, fruit de la meva estada de mes d’Abril al de Juny de 2007 al projecte. Proteus de la New York University, es proposen i avaluen diversos kernels sobre patrons. Ini-
cialment s’estudien kernels amb una família de patrons restringits, i a continuació s’apliquen
kernels ja usats en tasques supervisades d’Extracció d’Informació. Degut a la degradació del
rendiment que experimenta el clustering a l’afegir informació irrellevant, els kernels se simpli-
fiquen i es busquen estratègies per a incorporar-hi semàntica de forma selectiva. Finalment,
s’estudia quin efecte té aplicar clustering sobre el coneixement semàntic com a pas previ al
clustering de patrons. Les diverses estratègies s’avaluen en tasques de clustering de documents i patrons usant dades reals. |