Computer vision-based object recognition and manipulation with a budget robotic platform

Author

Zhu, Xiaoou

Other authors

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Tornil Sin, Sebastián

Publication date

2025-07-02



Abstract

Aquest Treball Fi de Grau presenta el disseny i la implementació d’un sistema automatitzat de detecció i manipulació d’objectes que integra un braç robòtic de baix cost amb tècniques de visió per computador. L’objectiu principal del projecte és identificar, localitzar i manipular petits objectes quotidians, com ara pinces d’estendre, gomes i caramels, mitjançant un procés de recollida i col·locació (pick and place). El sistema combina aprenentatge profund per al reconeixement d’objectes amb una transformació homogràfica clàssica per obtenir coordenades reals. Per assolir la identificació i segmentació dels objectes, es va entrenar el model YOLOv11-seg mitjançant transferència d’aprenentatge amb un conjunt de dades personalitzat. La localització es va dur a terme amb una webcam i una làmina de mida A5 com a referència per convertir les coordenades en píxels a mesures reals. El braç robòtic es controla aplicant cinemàtica inversa i interpolació de les articulacions mitjançant una taula de consulta (look-up table). La comunicació sèrie entre l’ordinador i el microcontrolador Arduino permet executar les ordres. Els resultats experimentals mostren que el sistema pot detectar i classificar objectes amb gran precisió, estimar-ne la posició de manera fiable i realitzar tasques bàsiques de pick and place. Tot i això, la precisió es veu limitada per les característiques mecàniques del braç robòtic i pel procés de transformació entre coordenades d’imatge i del robot.


Este Trabajo de Fin de Grado presenta el diseño e implementación de un sistema automatizado de detección y manipulación de objetos que integra un brazo robótico de bajo coste con técnicas de visión por computador. El objetivo principal del proyecto es identificar, localizar y manipular pequeños objetos cotidianos, como pinzas de ropa, gomas de borrar y caramelos, mediante un proceso de recogida y colocación (pick and place). El sistema combina aprendizaje profundo para el reconocimiento de objetos con una transformación homográfica clásica para determinar coordenadas reales. Para lograr la identificación y segmentación de los objetos, se entrenó el modelo YOLOv11-seg utilizando transferencia de aprendizaje con un conjunto de datos personalizado. La localización se realizó mediante una webcam y una hoja de tamaño A5 como referencia para convertir las coordenadas en píxeles a medidas reales. El brazo robótico se controla aplicando cinemática inversa e interpolación conjunta basada en una tabla de consulta (look-up table). La comunicación serie entre el ordenador y el microcontrolador Arduino permite la ejecución de órdenes. Los resultados experimentales muestran que el sistema puede detectar y clasificar objetos con alta precisión, estimar su posición de forma fiable y realizar tareas básicas de pick and place. Sin embargo, la precisión se ve limitada por las características mecánicas del brazo robótico y por el proceso de transformación entre coordenadas de imagen y del robot.


This Bachelor’s thesis presents the design and implementation of an automated object detection and manipulation system that integrates a low-cost robotic arm with computer vision techniques. The main objective of the project is to identify, locate, and manipulate small everyday objects such as clothespins, erasers, and candies through a pick-and-place process. The system combines deep learning for object recognition with classic homographic transformation to determine real-world object coordinates. To achieve object identification and segmentation, the YOLOv11-seg deep learning model was trained using transfer learning with a custom-labelled dataset. For object localisation, a homography-based approach was implemented using a standard webcam and a reference A5-sized sheet to convert pixel coordinates into real-world measurements. The robotic arm is controlled by applying inverse kinematics and joint interpolation based on a look-up table. Serial communication between the computer and the Arduino microcontroller enables command execution. Experimental results show that the system is capable of detecting and classifying objects with high accuracy, estimating their positions reliably, and performing basic pick-and-place tasks. However, its precision is limited by the mechanical characteristics of the robotic arm and the transformation process between image and robot coordinates. The project demonstrates the potential of combining deep learning with traditional computer vision in low-cost automation systems.

Document Type

Bachelor thesis

Language

English

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

http://creativecommons.org/licenses/by-nc-sa/4.0/

Open Access

Attribution-NonCommercial-ShareAlike 4.0 International

This item appears in the following Collection(s)