Combining large language models and ontologies for knowledge-driven robotic manipulation

Other authors

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Zaplana Agut, Isiah

Publication date

2025-06-27



Abstract

Aquesta tesi presenta un marc modular que integra Models de Llenguatge a Gran Escala (LLMs) amb ontologies per permetre la manipulació robòtica guiada per llenguatge natural. El sistema proposat permet que usuaris inexperts interactuïn amb un robot mitjançant descripcions textuals i definint tasques, les quals es tradueixen en representacions simbòliques estructurades per a la planificació i execució autònomes. El marc consta de tres mòduls principals. Primer, un component encarregat d'instanciar l'ontologia que extreu les entitats, propietats i relacions a partir d'un text no estructurat mitjançant LLMs, que després es validen i s'instancien en una base de coneixement semàntic, permetent als usuaris inexperts descriure escenaris al robot de manera senzilla. Segon, un mòdul de recuperació d'informació que tradueix les preguntes dels usuaris en consultes SPARQL utilitzant LLMs, i les valida mitjançant raonament basat en regles per obtenir una resposta a la pregunta a partir de la informació disponible a l'ontologia. Tercer, un LLM que s'utilitza per generar l'estat objectiu a partir de les accions desitjades per l'usuari. A continuació, es genera un fitxer de problema en Planning Domain Definition Language (PDDL), i genera un fitxer complet de configuració de Planificació de Tasques i Moviments (TAMP) per a la seva execució en un entorn robòtic simulat. El sistema es valida en un escenari realista de manipulació de cuina mitjançant el simulador Kautham, demostrant la seva capacitat per traduir la intenció de l'usuari a alt nivell en comportament robòtic de baix nivell. En combinar la flexibilitat interpretativa dels LLMs amb el rigor formal de les ontologies, aquest treball contribueix a una interfície innovadora i centrada en l'ésser humà per a l'autonomia robòtica guiada pel coneixement.


This thesis presents a modular framework that integrates Large Language Models (LLMs) with ontologies to enable natural language-driven robotic manipulation. The proposed system allows non-expert users to interact with a robot through free-form textual descriptions and task queries, which are grounded into structured, symbolic representations for autonomous planning and execution. The framework comprises three main modules. First, an ontology population component extracts entities, properties, and relations from unstructured text using LLMs, which are then validated and instantiated in a semantic knowledge base, enabling non-expert users to easily give scenario descriptions to the robot. Second, an information retrieval module translates user questions into SPARQL queries using LLMs and validates them using rule-based reasoning to obtain a response for the query based on the available information in the ontology. Third, an LLM is used to generate the goal state from the user desired actions. Then it constructs a Planning Domain Definition Language (PDDL) problem file, and builds a complete Task-and-Motion Planning (TAMP) configuration file for execution in a simulated robotic environment. The system is validated in a realistic kitchen manipulation scenario using the Kautham simulator, demonstrating its ability to translate high-level user intent into grounded robot behavior. By combining the interpretive flexibility of LLMs with the formal rigor of ontologies, this work contributes a novel, human-centric interface for knowledge-driven robotic autonomy.


Esta tesis presenta un marco modular que integra Modelos de Lenguaje de Gran Escala (LLMs) con ontologías para permitir la manipulación robótica guiada por lenguaje natural. El sistema propuesto permite que usuarios inexpertos interactúen con un robot mediante descripciones textuales y definiendo tareas, que se traducen en representaciones simbólicas estructuradas para la planificación y ejecución autónomas. El marco consta de tres módulos principales. Primero, un componente encargado de instanciar ontologías que extrae entidades, propiedades y relaciones a partir de texto no estructurado usando LLMs, que luego se validan e instancian en una base de conocimiento semántico, permitiendo a los usuarios inexpertos describir escenarios al robot de forma sencilla. Segundo, un módulo de recuperación de información que traduce las preguntas del usuario en consultas SPARQL usando LLMs y las valida mediante razonamiento basado en reglas para obtener una respuesta a la pregunta basada en la información disponible en la ontología. Tercero, un LLM que se utiliza para generar el estado objetivo a partir de las acciones deseadas por el usuario. Luego construye un archivo de problema en Planning Domain Definition Language (PDDL), y genera un archivo completo de configuración de Planificación de Tareas y Movimiento (TAMP) para su ejecución en un entorno robótico simulado. El sistema se valida en un escenario realista de manipulación en cocina usando el simulador Kautham, demostrando su capacidad para traducir la intención de alto nivel del usuario en comportamiento robótico fundamentado. Al combinar la flexibilidad interpretativa de los LLMs con el rigor formal de las ontologías, este trabajo contribuye con una interfaz novedosa y centrada en el ser humano para la autonomía robótica guiada por el conocimiento.

Document Type

Bachelor thesis

Language

English

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

Open Access

This item appears in the following Collection(s)