dc.contributor |
Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics |
dc.contributor |
Universitat Politècnica de Catalunya. GPLN - Grup de Processament del Llenguatge Natural |
dc.contributor.author |
Ferrés Domènech, Daniel |
dc.contributor.author |
Rodríguez Hontoria, Horacio |
dc.date |
2011 |
dc.identifier.citation |
Ferrés, D.; Rodríguez, H. Georeferencing textual annotations and tagsets with geographical knowledge and language models. A: Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural. "Actas de la SEPLN 2011". Huelva: 2011. |
dc.identifier.uri |
http://hdl.handle.net/2117/17703 |
dc.language.iso |
eng |
dc.rights |
Attribution-NonCommercial-NoDerivs 3.0 Spain |
dc.rights |
info:eu-repo/semantics/openAccess |
dc.rights |
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
dc.subject |
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural |
dc.subject |
Information retrieval |
dc.subject |
Georeferenciado |
dc.subject |
Gazetteers geográficos |
dc.subject |
Recuperación de la información |
dc.subject |
Georeferencing |
dc.subject |
Geographical gazetteers |
dc.subject |
Language models |
dc.subject |
Modelos de lenguaje |
dc.subject |
Recuperació de la informació |
dc.title |
Georeferencing textual annotations and tagsets with geographical knowledge and language models |
dc.type |
info:eu-repo/semantics/submittedVersion |
dc.type |
info:eu-repo/semantics/conferenceObject |
dc.description.abstract |
Presentamos en este artículo cuatro aproximaciones al georeferenciado genérico de anotaciones textuales multilingües y etiquetas sem ánticas. Las cuatro aproximaciones se basan en el uso de 1) Conocimiento geogr áfi co, 2) Modelos del lenguaje (LM), 3) Modelos del lenguaje con predicciones re-ranking y 4) Fusi ón de
las predicciones basadas en conocimiento geográfi co con otras aproximaciones. Los
recursos empleados incluyen el gazetteer geogr áfi co Geonames, los modelos de recuperación de informaci ón TFIDF y BM25, el Hiemstra Language Modelling (HLM), listas de stop words para varias lenguas y un diccionario electróonico de la lengua inglesa. Los mejores resultados en precisión del georeferenciado se han obtenido con la aproximación de re-ranking que usa el HLM y con su fusióon con conocimiento geográfi co. Estas estrategias mejoran los mejores resultados de los mejores sistemas participantes en la tarea o cial de georeferenciado en MediaEval 2010. Nuestro
mejor resultado obtiene una precisión de 68.53% en la tarea de geoeferenciado hasta
100 Km.
This paper describes generic approaches for georeferencing multilingual textual annotations and sets of tags from metadata associated to textual or multimedia content with high precision. We present four approaches based on: 1) Geographical Knowledge, 2) Language Modelling (LM), 3) Language Modelling with Re-Ranking predictions, 4) Fusion of Geographical Knowledge predictions with the other approaches. The resources employed were the Geonames geographical gazetteer, the TFIDF and BM25 Information Retrieval algorithms, the Hiemstra Language Modelling (HLM) algorithm, stopwords lists from several languages, and an electronic English dictionary. The best results in georeferencing accuracy are achieved with the HLM Re-Ranking approach and its fusion with Geographical Knowledge. These strategies outperformed the best results in accuracy reported by the state-of-the art systems that participated at MediaEval 2010 official Placing task. Our best results achieved are 68.53% of accuracy georeferencing up to a distance of 100 Km. |