Distàncies i dissimilituds entre textos : mètodes de comparació

Home | About RECERCAT | Contact

Català | Castellano

All of RECERCAT

By Communities &
Collections By Defense Date By Authors By Titles By Subject

This Collection

By Defense Date By Authors By Titles By Subject

Statistics

View Statistics All RECERCAT

My RECERCAT

Other repositories directory

RECERCAT Home > Universitat Politècnica de Catalunya > Tesines i projectes i treballs de final de carrera > View document

To access the full text documents, please follow this link: http://hdl.handle.net/2099.1/14555

Title:	Distàncies i dissimilituds entre textos : mètodes de comparació
Author:	Valls i Marsal, Joan
Other authors:	Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa; Bécue i Bertaut, Mónica María
Abstract:	En aquest projecte hem analitzat un conjunt de dades concret. Aquestes, provenen d’un conjunt d’entrevistes, recollides en format textual, que es van realitzar a un grup de consumidors de l’empresa francesa EDF (Électricité de France). En aquest context, era del nostre interès definir algun tipus de mesura entre textos (entrevistes) que permetés avaluar la semblança lèxica entre aquests. En l’actualitat, hom ha definit diverses mesures amb aquest objectiu, restant encara obert el problema de determinar un indicador definitiu i òptim. Davant d’aquesta situació, ens hem proposat de cercar mètodes per poder comparar diferents definicions de distàncies o dissimilituds entre textos, donada la necessitat d’haver-ne d’escollir-ne una. Més en general, en els estudis estadístics s’ha centrat l’interès en observar i analitzar dos tipus de dades: dades quantitatives (tal com l’edat o el pes) i dades qualitatives (tal com el sexe o la professió). Tanmateix, les dades textuals s’utilitzen cada cop més en diversos camps i, particularment en enquestes d’opinió, sociològiques, … on s’inclouen preguntes obertes. També les dades textuals poden ésser constituïdes per corpus de gran llargada, com fóra el cas de voler analitzar els discursos d’un determinat polític, o diverses obres literàries d’un mateix autor. En aquests casos, es construeixen matrius numèriques que contenen les freqüències en que cadascun dels individus (persones, discursos o obres literàries) han utilitzat cadascuna de les paraules presents en els corpus. És habitual realitzar una depuració del glossari de paraules, eliminant aquelles que no presenten informació lèxica rellevant per a l’investigador, així com establir equivalències lèxiques entre paraules. D’aquesta forma, es redueixen el nombre de formes lèxiques (paraules) i la matriu a analitzar presenta doncs un nombre de columnes reduït. En qualsevol d’aquests casos, hom sol estar interessat en descriure quines relacions existeixen entre els individus, entre les variables i finalment entre els individus i les variables. Quan la quantitat d’informació recollida és extensa, s’ha de recórrer als mètodes descriptius d’anàlisi multivariant, siguin aquests basats en anàlisis factorials o bé en mètodes d’escalament multidimensional.
Subject(s):	-Àrees temàtiques de la UPC::Matemàtiques i estadística::Anàlisi numèrica -Numerical analysis -Anàlisi numèrica -Classificació AMS::65 Numerical analysis
Rights:	Attribution-NonCommercial-NoDerivs 3.0 Spain http://creativecommons.org/licenses/by-nc-nd/3.0/es/
Document type:	Bachelor Thesis
Published by:	Universitat Politècnica de Catalunya
Share:

Show full item record

All of RECERCAT

This Collection

Statistics

My RECERCAT

Related documents

Other documents of the same author