Abstract:
|
En aquest projecte hem analitzat un conjunt de dades concret. Aquestes, provenen d’un conjunt d’entrevistes, recollides en format textual, que es van realitzar a un grup de consumidors de l’empresa francesa EDF (Électricité de France). En aquest context, era del nostre interès definir algun tipus de mesura entre textos (entrevistes) que permetés avaluar la semblança lèxica entre aquests. En l’actualitat, hom ha definit diverses mesures amb aquest objectiu, restant encara obert el problema de determinar un indicador definitiu i òptim. Davant d’aquesta situació, ens hem proposat de cercar mètodes per poder comparar diferents definicions de distàncies o dissimilituds entre textos, donada la necessitat d’haver-ne d’escollir-ne una.
Més en general, en els estudis estadístics s’ha centrat l’interès en observar i analitzar dos tipus de dades: dades quantitatives (tal com l’edat o el pes) i dades qualitatives (tal com el sexe o la professió). Tanmateix, les dades textuals s’utilitzen cada cop més en diversos camps i, particularment en enquestes d’opinió, sociològiques, … on s’inclouen preguntes obertes. També les dades textuals poden ésser constituïdes per corpus de gran llargada, com fóra el cas de voler analitzar els discursos d’un determinat polític, o diverses obres literàries d’un mateix autor. En aquests casos, es construeixen matrius numèriques que contenen les freqüències en que cadascun dels individus (persones, discursos o obres literàries) han utilitzat cadascuna de les paraules presents en els corpus. És habitual realitzar una depuració del glossari de paraules, eliminant aquelles que no presenten informació lèxica rellevant per a l’investigador, així com establir equivalències lèxiques entre paraules. D’aquesta forma, es redueixen el nombre de formes lèxiques (paraules) i la matriu a analitzar presenta doncs un nombre de columnes reduït.
En qualsevol d’aquests casos, hom sol estar interessat en descriure quines relacions existeixen entre els individus, entre les variables i finalment entre els individus i les variables. Quan la quantitat d’informació recollida és extensa, s’ha de recórrer als mètodes descriptius d’anàlisi multivariant, siguin aquests basats en anàlisis factorials o bé en mètodes d’escalament multidimensional. |