Intel·ligència artificial per a la classificació varietal de vins mitjançant anàlisi de textos

Altres autors/es

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Talavera Méndez, Luis José

Data de publicació

2026-01-29



Resum

Aquest Treball Final d’Estudis presenta un estudi comparatiu sobre l’aplicació de tècniques de Processament del Llenguatge Natural i Machine Learning a la classificació de textos, utilitzant com a cas d’estudi un conjunt de dades de ressenyes de vins. El treball se centra en la predicció de la varietat de raïm a partir de descripcions textuals, analitzant diferents estratègies de representació del llenguatge i models de classificació, des d’enfocaments tradicionals fins a models de llenguatge basats en arquitectures Transformer. Per assolir aquest objectiu, el treball es desenvolupa seguint dues aproximacions complementàries. En primer lloc, s’apliquen mètodes clàssics de representació textual basats en tokenització i vectorització mitjançant TF-IDF, combinats amb classificadors tradicionals com Multinomial Naive Bayes, amb la finalitat d’establir una línia base de rendiment. En segon lloc, s’estudia l’ús de models basats en Transformers, utilitzant tant embeddings preentrenats amb Sentence-BERT com models amb fine-tuning complet basats en RoBERTa, aprofitant arquitectures i pesos entrenats prèviament sobre grans corpus textuals. La metodologia emprada inclou la preparació i divisió del conjunt de dades, l’entrenament dels diferents models i l’avaluació mitjançant mètriques habituals en problemes de classificació multiclasse, com ara accuracy, precision, recall i f1-macro. Aquest enfocament permet analitzar de manera sistemàtica les diferències de rendiment, capacitat de captació semàntica i cost computacional entre els models clàssics i els basats en deep learning. Els resultats obtinguts mostren que els models basats en Transformers ofereixen, en general, un millor rendiment en la classificació de varietats de raïm, especialment en termes de comprensió semàntica de les descripcions textuals, tot i requerir un major cost computacional. Alhora, els models tradicionals presenten un comportament robust i eficient, constituint una alternativa vàlida en entorns amb recursos limitats. Finalment, el treball conclou que la combinació d’ambdós enfocaments proporciona una visió completa del problema i permet comprendre els avantatges i limitacions de cada model, establint una base per a futurs estudis i ampliacions en l’àmbit de la classificació de text.

Tipus de document

Bachelor thesis

Llengua

Català

Publicat per

Universitat Politècnica de Catalunya

Citació recomanada

Aquesta citació s'ha generat automàticament.

Drets

Open Access

Aquest element apareix en la col·lecció o col·leccions següent(s)