Use this identifier to quote or link this document: http://hdl.handle.net/2072/247114

Clasificación automática de textos y explotación BI
Buill Vilches, Javier
Universitat Autònoma de Barcelona. Escola d'Enginyeria; Grau Sala, Ramon; Vallbé, Joan Josep
El presente proyecto tiene como objetivo desarrollar una tecnología que permita codificar grandes cantidades de texto de manera automática para posteriormente ser visualizada y analizada mediante una aplicación diseñada en Qlikview. El motor de la investigación e implementación de este proyecto se ha encontrado en la incipiente presencia de tecnologías informáticas en los procesos de codificación para ciencias políticas. De esta manera, el programa creado tiene como objetivo automatizar un proceso que se desarrolla comúnmente de manera manual y, por ende, las ventajas de introducir técnicas informáticas son notablemente valiosas. Estas automatizaciones permiten ahorrar tanto en tiempo de codificación, como en recursos económicos o humanos. Se ha elaborado una revisión teórica y metodológica que han servido como instrumentos de estudio y mejora, con el firme propósito de reducir al máximo el margen de error y ofrecer un instrumento de calidad con salida de mercado real. El método de clasificación utilizado ha sido Bayes, y se ha implementado utilizando Matlab. Los resultados de la clasificación han llegado a índices del 99.2%. En la visualización y análisis mediante Qlikview se pueden modificar los parámetros referentes a partido político, año, categoría o región, con lo que se permite analizar numerosos aspectos relacionados con la distribución de las palabras repartidas entre las diferentes categorías y en el tiempo.
The aim of the present project is to develop a technology capable of codifying a huge amount of text automatically in order to be analysed through a Qlikview application. The main reason for the investigation and implementing of this project has been found due to the new presence of information technology in codifying processes for political science. Thus, the program created seeks to automate a usually hand-made process, and the advantages of introducing these techniques are remarkably valuable. This automates allow to save time both in time and in economic or human resources. In this point, there has been a theoretic and methodological revision that worked out as study and development instruments, with the aim to reduce the margin of error and offering a quality tool with access to real market. The classification method used has been Bayes, and it has been implemented by using Matlab. The classification results have reached 99.2% success. In the visualization and analysis with Qlikview the values of political party, year, category or region can be modified allowing analyse numerous aspects related to the word distribution between the categories and through time.
El present projecte té com objectiu desenvolupar una tecnologia que permeti codificar grans quantitats de text de forma automàtica per a posteriorment ser visualitzada i analitzada mitjançant una aplicació dissenyada en Qlikview. El motor de la investigació i implementació d’aquest projecte s’ha trobat en la incipient presència de tecnologies informàtiques als processos de codificació per a ciències polítiques. D’aquesta forma, el programa creat té com a objectiu automatitzar un procés que es desenvolupa comunament de forma manual i, per tant, els avantatges d’introduir tècniques informàtiques són molt valuoses. Aquestes automatitzacions permeten tant estalviar temps de codificació, com en recursos econòmics o humans. S’ha preparat una revisió teòrica i metodològica que ha funcionat com a instrument d’estudi i de millora, amb el ferma propòsit de reduir al màxim el marge d’error i oferir un instrument de qualitat amb sortides al mercat real. El mètode de classificació utilitzat ha estat Bayes, i s’ha implementat mitjançant Matlab. Els resultats de la classificació han arribat a índexs del 99.2%. A la visualització i anàlisis mitjançant Qlikview es poden modificar el paràmetres referents a partit polític, any, categoria o regió, amb el que es poden analitzar nombrosos aspectes relacionats amb la distribució de les paraules repartides entre les diferents categories i en el temps.
Aquest document conté originàriament altre material i/o programari només consultable a la Biblioteca de Ciència i Tecnologia.
2014-06
004 - Informàtica
Programari d'aplicació – Desenvolupament
Processament de dades
L'accés als continguts d'aquest document queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
89 p.
info:eu-repo/semantics/bachelorThesis
         

Full text files in this document

Files Size Format Description
PFC_JavierBuillVilches_presentacio.pdf 1.485 MB PDF Presentació
PFC_JavierBuillVilches.pdf 4.909 MB PDF Memòria

Show full item record

 

Coordination

 

Supporters