Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

Inicio | ¿Qué es? | Contacto

English | Català

Consultar RECERCAT

Por comunidades y
colecciones Por fecha Por autores Por títulos Por temas (CDU)

Consultar departamento

Por fecha Por autores Por títulos Por temas (CDU)

Estadisticas

Del documento Todo RECERCAT

Mi RECERCAT

Entrar Alertas por correo-e

Directorio de otros repositorios

RECERCAT Principal > Universitat Politècnica de Catalunya > Documents de recerca > Visualizar documento

Para acceder a los documentos con el texto completo, por favor, siga el siguiente enlace: http://hdl.handle.net/2117/26966

Título:	Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia
Autor/a:	Boldoba Trapote, Josu; Barrón-Cedeño, Alberto; España Bonet, Cristina
Otros autores:	Universitat Politècnica de Catalunya. Departament de Ciències de la Computació; Universitat Politècnica de Catalunya. GPLN - Grup de Processament del Llenguatge Natural
Abstract:	Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.
Materia(s):	-Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural -Natural language processing (Computer science) -Tractament del llenguatge natural (Informàtica)
Derechos:
Tipo de documento:	Artículo - Borrador Informe
Compartir:

Mostrar el registro completo del ítem

Documentos relacionados

Otros documentos del mismo autor/a

A factory of comparable corpora from Wikipedia

Barrón-Cedeño, Alberto; España Bonet, Cristina; Boldoba Trapote, Josu; Márquez Villodre, Luís

Explotación de wikipedia para el enriquecimiento de un traductor automático

Boldoba Trapote, Josu

UPC-CORE : What can machine translation evaluation metrics and Wikipedia do for estimating semantic textual similarity?

Barrón-Cedeño, Alberto; Màrquez Villodre, Lluís; Fuentes Fort, Maria; Rodríguez Hontoria, Horacio; Turmo Borras, Jorge

Identifying useful human feedback from an on-line translation service

Barrón-Cedeño, Alberto; Màrquez Villodre, Lluís; Henríquez Quintana, Carlos Alberto; Formiga Fanals, Lluís; Romero Merino, Enrique; May, Jonathan

Methods for cross-language plagiarism detection

Barrón-Cedeño, Alberto; Gupta, P.; Rosso, Paolo

Accesibilidad | Aviso legal | Política de Cookies | Documentos de uso interno

Coordinación

Patrocinio