Other authors

Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica

Paradells Aspas, Josep

Publication date

2025-10-20



Abstract

La tesis de máster se centra en la utilización de Modelos de Lenguaje de Gran Escala (LLMs) en sistemas de automatización del hogar, destacando los beneficios de ejecutar los LLMs de forma local para mantener la privacidad de los datos, reducir costes y garantizar un almacenamiento seguro.Los métodos tradicionales de automatización del hogar suelen utilizar comandos de voz predefinidos, lo que limita la flexibilidad y complica la interacción del usuario. El proyecto tiene como objetivo desarrollar y diseñar una interfaz conversacional y un asistente de voz inteligente que permita la comunicación en lenguaje natural. Al incorporar modelos de lenguaje más ligeros y permitir su funcionamiento local, el sistema busca maximizar la interacción conversacional, reducir los riesgos de malware y asegurar la privacidad de los datos del usuario. Esta tesis también explora el uso de tecnologías tanto en la nube como fuera de línea dentro del ámbito de la automatización del hogar, analizando sus capacidades y los dispositivos compatibles. Se destacan las tecnologías que permiten que los asistentes de voz sean prácticos y adaptables a las necesidades cambiantes de los usuarios, además de presentar avances modernos en los sistemas de automatización del hogar. El componente clave de este trabajo es la evaluación del uso de LLMs en la automatización del hogar, junto con las tecnologías de texto a voz (Text-to-Speech, TTS) y de voz a texto (Speech-to-Text, STT). Se probaron múltiples opciones para identificar soluciones adecuadas, abordando los desafíos encontrados durante el desarrollo. El sistema procesa comandos de voz y ofrece respuestas habladas, permitiendo interacciones flexibles y guiadas por el contexto. Para mejorar la calidad del reconocimiento de voz, también se discuten métodos adecuados para optimizar el rendimiento de los asistentes de voz domésticos.Esta tesis presenta diversas opciones de solución, herramientas de software y componentes de hardware, junto con los retos encontrados durante el desarrollo, e identifica los enfoques con mejor rendimiento que se implementaron en el proyecto. Para la implementación, se seleccionaron herramientas adecuadas que cumplían con los criterios del proyecto, proporcionando justificaciones claras para cada elección. Todas las herramientas seleccionadas son de código abierto y fácilmente personalizables, ofreciendo flexibilidad para futuros desarrollos. Al procesar los comandos localmente, el sistema mejora la privacidad del usuario, reduce la dependencia de servicios en la nube y disminuye los costes operativos. Los usuarios pueden controlar dispositivos inteligentes como luces, ventiladores, termostatos, aires acondicionados y calefactores mediante comandos de voz naturales, lo que resulta en una experiencia de automatización del hogar intuitiva y personalizada. La tesis incluye una guía de implementación paso a paso, integración del hardware con una pantalla para visualizar el plano del hogar, instrucciones detalladas de instalación, bibliotecas de software de código abierto y código ejecutable para facilitar la replicación y las pruebas. También se incorporan funciones adicionales como memoria a corto plazo para respuestas contextuales, activación por palabra clave (wake-word), modo de bajo consumo y reproducción de música sin conexión. El diseño modular y de código abierto del sistema, utilizando herramientas como Vosk, Mimic 3, Tkinter, SpaCy y FuzzyMatcher, está respaldado por una imagen preconfigurada del sistema operativo Raspberry Pi OS. Esto garantiza accesibilidad, escalabilidad y facilidad de personalización, incluso para usuarios sin conocimientos técnicos. Además, el sistema de automatización del hogar basado en LLM fue probado bajo diferentes condiciones de entrada, incluyendo comandos correctos, incorrectos y entornos ruidosos. Los experimentos proporcionaron descripciones detalladas sobre cómo el sistema interpreta y responde a diferentes situaciones, devolviendo resultados estables y fiables. En última instancia, esta investigación demuestra cómo los LLMs pueden ofrecer sistemas de hogar inteligente seguros, rentables y fáciles de usar. Al alinear la inteligencia artificial de última generación con la automatización del hogar diaria, se contribuye al desarrollo de soluciones más inteligentes, adaptables y sostenibles que priorizan la comodidad, la seguridad y la privacidad.


The Master’s thesis focuses on the utilization of Large Language Models (LLMs) in home automation systems with the benefits of running LLMs locally to maintain data privacy, reduce costs, and ensure secure data storage. Traditional methods for home automation are likely to use pre-defined voice commands, which limit flexibility and complicate user interaction. The project aims to develop and design a conversational interface and intelligent voice assistant with natural language communication. By incorporating lighter language models, and enabling them to function locally, the system aims to maximize conversation interaction while reducing the chances of malware and ensuring the privacy of user data. This thesis also explores the use of both cloud-based and offline technologies in home automation, analyzing their capabilities and supported devices. It highlights the technologies that enable voice assistants to be practical and adaptable to evolving user needs, while also introducing modern advancements in home automation systems. The key component of this work is the evaluation of LLM in home automation, Text-to-Speech (TTS) and Speech-to-Text (STT) technologies. Multiple options were tested to identify suitable solutions, addressing challenges encountered during development. The system processes voice commands and delivers spoken responses, enabling flexible, context-driven interactions. To further enhance voice recognition quality, we also discuss suitable methods for improving the performance of home voice assistants. This thesis presents various solution options,software tools and hardware components, along with the challenges encountered during development, and identifies the best-performing approaches implemented in the project. For the implementation, we selected suitable tools that met our project criteria and provided clear justifications for each choice. All selected tools are open-source and easily customizable, offering flexibility for further development. By processing commands locally, the system enhances user privacy, reduces reliance on cloud services, and lowers operational costs. Users can control smart devices such as lights, fans, thermostats, air conditioners, and heaters through natural voice commands, resulting in an intuitive and personalized home automation experience. This thesis provides a step-by-step implementation guide, including hardware integration with a display to visualize the home layout, detailed installation instructions, open-source software libraries, and executable code for easy replication and testing. Additional features such as short-term memory for context-aware responses, wake-word activation, low-power sleep mode, and offline music playback are also incorporated. The system’s modular and open-source design, utilizing tools like Vosk, Mimic 3, Tkinter, SpaCy, and FuzzyMatcher etc, is supported by a pre-configured Raspberry Pi OS image. This ensures accessibility, scalability, and ease of customization, even for non-technical users. In addition, the home automation system based on LLM was tested under varying input conditions including correct commands, incorrect commands, and noisy conditions. The experiments provided detailed descriptions about how the system interprets and responds to different situations and hence returns stable and reliable output values. Ultimately, this research demonstrates how LLMs can deliver secure, cost-effective, and user-friendly smart home systems. By aligning cutting-edge AI with everyday home automation, it contributes to the development of smarter, adaptable, and sustainable solutions that prioritize convenience, security, and privacy.


Aquest treball de final de màster se centra en la utilització de Models de Llenguatge de Gran Escala (LLMs) en sistemes de domòtica, destacant els avantatges de fer-los funcionar localment per tal de preservar la privadesa de les dades, reduir costos i garantir un emmagatzematge segur de la informació. Els mètodes tradicionals de domòtica solen basar-se en ordres de veu predefinides, fet que limita la flexibilitat i complica la interacció amb l’usuari. Aquest projecte té com a objectiu desenvolupar i dissenyar una interfície conversacional i un assistent de veu intel·ligent que permetin la comunicació en llenguatge natural. Incorporant models de llenguatge més lleugers i permetent la seva execució local, el sistema busca maximitzar la interacció conversacional, reduint alhora les possibilitats de malware i garantint la privadesa de les dades de l’usuari. Aquesta tesi també explora l’ús de tecnologies tant en el núvol com fora de línia dins l’àmbit de la domòtica, analitzant les seves capacitats i els dispositius compatibles. Es posen en relleu les tecnologies que permeten que els assistents de veu siguin pràctics i adaptables a les necessitats canviants dels usuaris, alhora que s’introdueixen avenços moderns en els sistemes de domòtica. L’element clau d’aquest treball és l’avaluació de l’ús de LLMs en la domòtica, juntament amb les tecnologies de conversió de text a veu (Text-to-Speech, TTS) i de veu a text (Speech-to-Text, STT). Es van provar múltiples opcions per identificar solucions adequades, abordant els reptes trobats durant el desenvolupament. El sistema processa ordres de veu i ofereix respostes orals, cosa que permet interaccions flexibles i guiades pel context. Per millorar encara més la qualitat del reconeixement de veu, també es discuteixen mètodes apropiats per optimitzar el rendiment dels assistents de veu domèstics. Aquesta tesi presenta diverses opcions de solució, eines de programari i components de maquinari, juntament amb els reptes trobats durant el desenvolupament, i identifica els enfocaments més eficients implementats en el projecte. Per a la implementació, es van seleccionar eines adequades que complien els criteris del projecte, proporcionant justificacions clares per a cada elecció. Totes les eines seleccionades són de codi obert i fàcilment personalitzables, oferint flexibilitat per a futurs desenvolupaments. En processar les ordres localment, el sistema millora la privadesa de l’usuari, redueix la dependència dels serveis al núvol i disminueix els costos operatius. Els usuaris poden controlar dispositius intel·ligents com llums, ventiladors, termòstats, aires condicionats i calefactors mitjançant ordres de veu naturals, donant com a resultat una experiència domòtica intuïtiva i personalitzada. La tesi inclou una guia d’implementació pas a pas, integració amb maquinari i pantalla per visualitzar el pla de la llar, instruccions detallades d’instal·lació, biblioteques de programari de codi obert i codi executable per a una fàcil replicació i proves. També s’incorporen funcions addicionals com la memòria a curt termini per a respostes contextuals, activació per paraula clau (wake word), mode de repòs de baix consum i reproducció de música fora de línia. El disseny modular i de codi obert del sistema, utilitzant eines com Vosk, Mimic 3, Tkinter, SpaCy i FuzzyMatcher, està suportat per una imatge preconfigurada de Raspberry Pi OS. Això assegura l’accessibilitat, l’escalabilitat i la facilitat de personalització, fins i tot per a usuaris no tècnics. A més, el sistema de domòtica basat en LLM va ser posat a prova sota diferents condicions d’entrada, incloent-hi ordres correctes, ordres incorrectes i entorns amb soroll. Els experiments van proporcionar descripcions detallades de com el sistema interpreta i respon a diferents situacions, retornant valors de sortida estables i fiables. En definitiva, aquesta recerca demostra com els LLMs poden oferir sistemes de llar intel·ligent segurs, rendibles i fàcils d’utilitzar. En alinear la intel·ligència artificial de darrera generació amb la domòtica quotidiana, es contribueix al desenvolupament de solucions més intel·ligents, adaptables i sostenibles que prioritzen la comoditat, la seguretat i la privadesa.

Document Type

Master thesis

Language

English

Subjects and keywords

Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial; Home automation; Artificial intelligence; User interfaces (Computer systems); Modelos de lenguaje grande; LLM; PNL (Procesamiento de lenguaje natural); Automatización del hogar; Procesamiento local; Asistente de Voz; Interfaz conversacional; Comunicación en lenguaje natural; Texto a voz; Voz a texto; Tecnologías en la nube vs tecnologías offline; Sistemas de hogar inteligente; Integración de comandos de voz; Privacidad y seguridad; Herramientas de código abierto; Raspberry Pi; Sistemas conscientes del contexto; Control de dispositivos del hogar; Interacción con dispositivos inteligentes; Automatización impulsada por IA; Reconocimiento de voz; Interacción de usuario flexible; Sistemas de bajo consumo; Activación por palabra de despertar; Reconocimiento de voz; GUI (Interfaz Gráfica de Usuario); Procesamiento de comandos de voz; Automatización rentable; Dispositivos controlados por voz; Automatización offline; Reproducción de música offline; Automatización del hogar adaptable; Escalabilidad en la automatización del hogar; Personalización en hogares inteligentes; Ollama; DeepSeek; Coincidencia difusa; Tasa de muestra; SpaCy; Vosk; Micrófono de array; Mimic 3; Kit de cómputo LLM630; ESP32+ M5 Stack CoreS3; Desarrollo de GUI; Pyaudio; Procesamiento de audio; Pygame; Procesamiento de imágenes; Large Language Models; LLM; NLP; Home automation; Local processing; Voice assistant; Conversational interface; Natural language communication; Text-to-speech; Speech-to-text; Cloud-based vs offline technologies; Smart home systems; Voice command integration; Privacy and security; Open-source Tools; Home device control; Smart device interaction; AI-driven automation; Voice recognition; Flexible user interaction; Low-power systems; Wake-word activation; Speech recognition; GUI; Voice command processing; Cost-effective automation; Voice-controlled devices; Offline automation; Offline music playback; Adaptable home automation; Scalability in home automation; Customization in smart homes; Fuzzy matching; LLM630 Compute Kit; ESP32+ M5 Stack CoreS3; Image processing; Domòtica; Intel·ligència artificial; Interfícies d'usuari (Informàtica)

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'

Open Access

This item appears in the following Collection(s)