Aplicación de modelos de inteligencia artificial en el microcontrolador Arduino Nano 33 BLE Sense

Altres autors/es

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Ruiz Vegas, Francisco Javier

Data de publicació

2026-02-03



Resum

El trabajo aborda el diseño, entrenamiento y despliegue de una red neuronal capaz de reconocer comandos de voz en tiempo real sobre el microcontrolador Arduino Nano 33 BLE Sense Rev2, utilizando exclusivamente sus recursos de cómputo y el micrófono MEMS integrado. El proyecto se enmarca en el paradigma TinyML y computación en el borde (edge computing) donde los modelos de aprendizaje automático se ejecutan localmente en dispositivos de muy bajo consumo, reduciendo la latencia, la dependencia de la nube y mejorando la privacidad y la seguridad al prescindir del envío continuo de datos. Para ello, se desarrolla un flujo completo que incluye la adquisición de audio a 16 kHz mediante la librería PDM.h, la conversión de la señal PDM a PCM y un preprocesado exhaustivo basado en coeficientes cepstrales en frecuencia Mel (MFCC), con una configuración optimizada de ventanas, transformada rápida de Fourier y bancos de filtros Mel, así como la posterior generación y despliegue del modelo en la propia placa. Este enfoque permite transformar las señales de audio crudas en representaciones compactas y discriminativas adecuadas para su clasificación eficiente en un entorno con recursos muy restringidos, alcanzando una reducción de datos del orden de 25:1 entre la señal de entrada y el vector de características utilizado por la red neuronal. El proyecto profundiza en la herramienta de alto nivel Edge Impulse para la captura y etiquetado de datos, la extracción de características, el diseño de la red, el entrenamiento supervisado, la evaluación y, finalmente, la optimización y cuantización del modelo, generando después el código necesario para ejecutarlo con TensorFlow Lite Micro en el entorno Arduino. El modelo se basa en una red neuronal convolucional 2D ligera que opera sobre matrices de MFCC de 50 × 13, formada por dos capas convolucionales consecutivas de 8 filtros con kernel 3 × 3 y activación ReLU, cada una seguida de capas de max pooling 2 × 2 y dropout al 25%, seguida por una capa flatten de 416 elementos, una capa densa intermedia de 32 neuronas con activación ReLU y una capa de salida softmax de 5 neuronas. Como demostración práctica, el sistema se integra en una aplicación de control de un motor mediante comandos de voz, validando que es posible ejecutar modelos de inteligencia artificial de forma autónoma y con baja latencia en hardware de recursos muy limitados. Además, el documento describe con detalle el flujo de trabajo, las decisiones de diseño adoptadas, las métricas de rendimiento obtenidas y las principales limitaciones detectadas, de modo que pueda servir como guía técnica y punto de partida para futuros proyectos de reconocimiento de audio en sistemas embebidos y, en general, para el desarrollo de soluciones TinyML en aplicaciones reales.


The work addresses the design, training, and deployment of a neural network capable of recognizing real-time voice commands on the Arduino Nano 33 BLE Sense Rev2 microcontroller, using exclusively its onboard computing resources and integrated MEMS microphone. The project falls within the TinyML and edge computing paradigms, where machine learning models run locally on ultra-low-power devices, reducing latency and cloud dependency while improving privacy and security by eliminating continuous data transmission. To achieve this, a complete workflow is developed, including audio acquisition at 16 kHz using the PDM.h library, conversion of the PDM signal to PCM, and extensive preprocessing based on Mel-frequency cepstral coefficients (MFCC). This process includes an optimized configuration of windowing, fast Fourier transform, and Mel filter banks, followed by the generation and deployment of the model directly on the board. This approach transforms raw audio signals into compact, discriminative representations suitable for efficient classification in a resource-constrained environment, achieving a data reduction ratio of approximately 25:1 between the input signal and the feature vector used by the neural network. The project makes in-depth use of the high-level Edge Impulse tool for data collection and labeling, feature extraction, network design, supervised training, evaluation, and finally, model optimization and quantization, subsequently generating the code required to run it with TensorFlow Lite Micro within the Arduino environment. The model is based on a lightweight 2D convolutional neural network operating on 50 × 13 MFCC matrices, consisting of two consecutive convolutional layers with 8 filters each, using 3 × 3 kernels and ReLU activation. Each convolutional block is followed by 2 × 2 max pooling and 25% dropout layers, then a flatten layer with 416 elements, an intermediate dense layer of 32 neurons with ReLU activation, and a final 5-neuron softmax output layer. As a practical demonstration, the system is integrated into a voice-controlled motor application, validating the feasibility of running artificial intelligence models autonomously and with low latency on hardware with severely limited resources. Furthermore, the document provides a detailed description of the workflow, design decisions, performance metrics, and the main limitations identified, serving as a technical guide and starting point for future audio recognition projects on embedded systems and, more broadly, for the development of TinyML solutions in real-world applications.


El treball aborda el disseny, entrenament i desplegament d’una xarxa neuronal capaç de reconèixer ordres de veu en temps real sobre el microcontrolador Arduino Nano 33 BLE Sense Rev2, utilitzant exclusivament els seus recursos de càlcul i el micròfon MEMS integrat. El projecte s’emmarca en el paradigma TinyML i en la computació a la vora (edge computing), on els models d’aprenentatge automàtic s’executen localment en dispositius de molt baix consum, reduint la latència i la dependència del núvol, i millorant la privadesa i la seguretat en eliminar l’enviament continu de dades. Per aconseguir-ho, es desenvolupa un flux complet que inclou l’adquisició d’àudio a 16 kHz mitjançant la llibreria PDM.h, la conversió del senyal PDM a PCM i un preprocessament exhaustiu basat en coeficients cepstrals en freqüència Mel (MFCC), amb una configuració optimitzada de finestres, transformada ràpida de Fourier i bancs de filtres Mel, així com la posterior generació i desplegament del model a la pròpia placa. Aquest plantejament permet transformar els senyals d’àudio en brut en representacions compactes i discriminatives adequades per a la seva classificació eficient en un entorn amb recursos molt limitats, aconseguint una reducció de dades d’aproximadament 25:1 entre el senyal d’entrada i el vector de característiques utilitzat per la xarxa neuronal. Per aconseguir-ho, es desenvolupa un flux complet que inclou l’adquisició d’àudio a 16 kHz mitjançant la llibreria PDM.h, la conversió del senyal PDM a PCM i un preprocessament exhaustiu basat en coeficients cepstrals en freqüència Mel (MFCC), amb una configuració optimitzada de finestres, transformada ràpida de Fourier i bancs de filtres Mel, així com la posterior generació i desplegament del model a la pròpia placa. Aquest plantejament permet transformar els senyals d’àudio en brut en representacions compactes i discriminatives adequades per a la seva classificació eficient en un entorn amb recursos molt limitats, aconseguint una reducció de dades d’aproximadament 25:1 entre el senyal d’entrada i el vector de característiques utilitzat per la xarxa neuronal. Com a demostració pràctica, el sistema s’integra en una aplicació de control d’un motor mitjançant ordres de veu, validant que és possible executar models d’intel·ligència artificial de manera autònoma i amb baixa latència en maquinari de recursos molt limitats. A més, el document descriu amb detall el flux de treball, les decisions de disseny adoptades, les mètriques de rendiment obtingudes i les principals limitacions detectades, de manera que pugui servir com a guia tècnica i punt de partida per a futurs projectes de reconeixement d’àudio en sistemes encastats i, en general, per al desenvolupament de solucions TinyML en aplicacions reals.

Tipus de document

Master thesis

Llengua

Castellà

Publicat per

Universitat Politècnica de Catalunya

Citació recomanada

Aquesta citació s'ha generat automàticament.

Drets

Open Access

Aquest element apareix en la col·lecció o col·leccions següent(s)