Title:
|
TASS2018: Medical knowledge discovery by combining terminology extraction techniques with machine learning classification
|
Author:
|
Vivaldi Palatresi, Jorge; Rodríguez Hontoria, Horacio
|
Other authors:
|
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació; Universitat Politècnica de Catalunya. GPLN - Grup de Processament del Llenguatge Natural |
Abstract:
|
En este artículo presentamos la aproximación seguida por el equipo UPF-UPC en la tarea TASS 2018 Task 3 challenge. Nuestra aproximación puede calificarse, de acuerdo a los códigos propuestos por la organización, como H-KBS, ya que utiliza métodos basados en conocimiento y aprendizaje supervisado. El pipeline utilizado incluye: i) Un pre-proceso standard de los documentos usando Freeling (etiquetado morfosintáctico y análisis de dependencias); ii) El uso de una herramienta de etiquetado sequencial basada en CRF para completar las subtareas A (identificación de frases) y B (clasificación de frases), y iii) El abordaje de la subtarea C (extracción de relaciones semánticas) usando una aproximación híbrida que integra dos classificadores basados en Regresión Logística, y dos extractores léxicos para pares entity/entity y relaciones is-a y same-as. |
Abstract:
|
In this paper we present the procedure followed to complete the run submitted by the UPF-UPC team to the TASS 2018 Task 3 challenge. Such procedure may be classified, according the organization’s codes, as H-KB-S as it takes profit from a knowledge based methodology as well as some supervised methods. Our pipeline includes: i) A standard pre-process of the documents using Freeling tool suite (POS tagging and dependency parsing); ii) Use of a CRF sequence labelling tool for completing both subtasks A (key phrase identification) and B (key phrase classification), and iii) Facing the subtask C (setting semantic relationships) by using a hybrid approach that uses two Logistic Regression classifiers, followed by lexical shallow relation extractors for entity/entity pairs related by is-a and same-as relations. |
Abstract:
|
Peer Reviewed |
Subject(s):
|
-Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural -Medicine -- Terminology -Computational linguistics -Data mining -Obtención de conocimiento médico -Terminología médica -Identificación
de relaciones semánticas -Health knowledge discovery -Terminology extraction -Identification of semantic relations -Medicina -- Terminologia -Lingüística computacional -Mineria de dades |
Rights:
|
|
Document type:
|
Article - Published version Conference Object |
Published by:
|
CEUR-WS.org
|
Share:
|
|