Maca - a configurable tool to integrate Polish morphological data

dc.contributor
International Workshop on Free/Open-Source Rule-Based Machine Translation (2nd : 2011 : Barcelona)
dc.contributor.author
Radziszewski, Adam
dc.contributor.author
Sniatowski, Tomasz
dc.date
2010-12-20T16:54:13Z
dc.date
2010-12-20T16:54:13Z
dc.date
2011-01-20
dc.identifier.citation
Radziszewski, Adam; Sniatowski, Tomasz (2011, January). "Maca - a configurable tool to integrate Polish morphological data". Proceedings of the Second International Workshop on Free/Open-Source Rule-Based Machine Translation (2011: Barcelona). <http://hdl.handle.net/10609/5645>
dc.identifier.citation
978-84-693-9517-2
dc.identifier.uri
https://hdl.handle.net/10609/5645
dc.description.abstract
There are a number of morphological analysers for Polish. Most of these, however, are non-free resources. What is more, different analysers employ different tagsets and tokenisation strategies. This situation calls for a simple and universal framework to join different sources of morphological information, including the existing resources as well as user-provided dictionaries. We present such a configurable framework that allows to write simple configuration files that define tokenisation strategies and the behaviour of morphological analysers, including simple tagset conversion.
dc.description.abstract
Existen unos cuantos analizadores morfológicos para el polaco. Sin embargo, muchos de estos son recursos no libres. Es más, analizadores diferentes utilizan diferentes etiquetarios (tagsets) y estrategias de segmentación de textos. Esta situación exige un marco simple y universal para unir diferentes recursos de información morfológica, incluidos los recursos existentes, además de diccionarios proporcionados por los usuarios. Presentamos un marco configurable de este tipo que permite escribir ficheros de configuración simples que definen las estrategias de segmentación de texto y el comportamiento de los analizadores morfológicos, incluida la conversión de etiquetarios simple.
dc.description.abstract
Hi ha diversos analitzadors morfològics per al polonès. La majoria, però, no són de codi lliure. És més, diferents analitzadors fan servir diferents etiquetaris (tagsets) i estratègies de segmentació de textos. Aquesta situació demana un marc senzill i universal per a unir diferents fonts d'informació morfològica, incloent-hi els recursos existents i els diccionaris proporcionats pels usuaris. Presentem un marc configurable d'aquest tipus que permet escriure fitxers de configuració simples que defineixen les estratègies de segmentació de textos i el comportament dels analitzadors morfològics, incloent-hi la conversió d'etiquetaris simple.
dc.language.iso
eng
dc.publisher
Universitat Oberta de Catalunya
dc.rights
<a href="http://creativecommons.org/licenses/by-sa/3.0/es/">http://creativecommons.org/licenses/by-sa/3.0/es/</a>
dc.subject
morphology
dc.subject
tokenisation
dc.subject
morfologia
dc.subject
segmentació de textos
dc.subject
morfología
dc.subject
segmentación de textos
dc.subject
Open source software
dc.subject
Machine translating
dc.subject
Computational linguistics
dc.subject
Programari lliure
dc.subject
Traducció automàtica
dc.subject
Lingüística computacional
dc.subject
Software libre
dc.subject
Traducción automática
dc.subject
Lingüística computacional
dc.title
Maca - a configurable tool to integrate Polish morphological data
dc.type
info:eu-repo/semantics/conferenceObject


Fitxers en aquest element

FitxersGrandàriaFormatVisualització

No hi ha fitxers associats a aquest element.