To access the full text documents, please follow this link: http://hdl.handle.net/2117/17703

Georeferencing textual annotations and tagsets with geographical knowledge and language models
Ferrés Domènech, Daniel; Rodríguez Hontoria, Horacio
Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics; Universitat Politècnica de Catalunya. GPLN - Grup de Processament del Llenguatge Natural
Presentamos en este artículo cuatro aproximaciones al georeferenciado genérico de anotaciones textuales multilingües y etiquetas sem ánticas. Las cuatro aproximaciones se basan en el uso de 1) Conocimiento geogr áfi co, 2) Modelos del lenguaje (LM), 3) Modelos del lenguaje con predicciones re-ranking y 4) Fusi ón de las predicciones basadas en conocimiento geográfi co con otras aproximaciones. Los recursos empleados incluyen el gazetteer geogr áfi co Geonames, los modelos de recuperación de informaci ón TFIDF y BM25, el Hiemstra Language Modelling (HLM), listas de stop words para varias lenguas y un diccionario electróonico de la lengua inglesa. Los mejores resultados en precisión del georeferenciado se han obtenido con la aproximación de re-ranking que usa el HLM y con su fusióon con conocimiento geográfi co. Estas estrategias mejoran los mejores resultados de los mejores sistemas participantes en la tarea o cial de georeferenciado en MediaEval 2010. Nuestro mejor resultado obtiene una precisión de 68.53% en la tarea de geoeferenciado hasta 100 Km. This paper describes generic approaches for georeferencing multilingual textual annotations and sets of tags from metadata associated to textual or multimedia content with high precision. We present four approaches based on: 1) Geographical Knowledge, 2) Language Modelling (LM), 3) Language Modelling with Re-Ranking predictions, 4) Fusion of Geographical Knowledge predictions with the other approaches. The resources employed were the Geonames geographical gazetteer, the TFIDF and BM25 Information Retrieval algorithms, the Hiemstra Language Modelling (HLM) algorithm, stopwords lists from several languages, and an electronic English dictionary. The best results in georeferencing accuracy are achieved with the HLM Re-Ranking approach and its fusion with Geographical Knowledge. These strategies outperformed the best results in accuracy reported by the state-of-the art systems that participated at MediaEval 2010 official Placing task. Our best results achieved are 68.53% of accuracy georeferencing up to a distance of 100 Km.
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural
Information retrieval
Georeferenciado
Gazetteers geográficos
Recuperación de la información
Georeferencing
Geographical gazetteers
Language models
Modelos de lenguaje
Recuperació de la informació
Attribution-NonCommercial-NoDerivs 3.0 Spain
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/submittedVersion
info:eu-repo/semantics/conferenceObject
         

Show full item record

Related documents

Other documents of the same author

Fuentes Fort, Maria; Rodríguez Hontoria, Horacio; Ferrés Domènech, Daniel
 

Coordination

 

Supporters