Título:
|
Hand gestures recognition using 3D-CNN
|
Autor/a:
|
Famadas Alsamora, Josep
|
Otros autores:
|
Casas Pla, Josep Ramon; Ruiz Hidalgo, Javier |
Abstract:
|
Since the emerge of informatic systems, one of the aspects that have helped to the rise of its popularity has been the simplification of the User-Computer communication, commonly known as user interface. Nowadays, the vanguard in this field are the techniques called touchless which, as its name indicates, consist of a kind of communication which do not imply touching any sort of hardware, by means of audio or video. This project involves the recognition of dynamic hand gestures performed with hands using RGB-D (Color and Depth) sequences recorded with a Kinect sensor. In order to do so I have used a technique which combines computer vision and deep learning known as 3D Convolutional Neural Network. My solution is inspired in the one proposed by Molchanov et al in their work [1] where some spatial and temporal data augmentation techniques have been used. In my case I have worked with two different datasets. The first one is a prepared dataset. With it, an accuracy of nearly 65% has been obtained. The second one (which will be named as Telepresence Dataset) has been self-made. With it, I did not get positive results. |
Abstract:
|
Desde la aparición de los sistemas informáticos, uno de los aspectos que han ayudado más al aumento de su popularidad ha sido la simplificación de la comunicación Usuario-Ordenador, también conocida como interfaz de usuario. Actualmente la vanguardia de este campo se encuentra en las técnicas conocidas como touchless que, tal y como su nombre indica, consisten en una comunicación que no implique tocar ningún hardware, ya sea mediante audio o video. En este proyecto trabajo el reconocimiento de gestos dinámicos hechos con las manos usando secuencias RGB-D grabadas con un sensor Kinect. Para llevar eso a cabo he usado una técnica que combina computer vision y deep learning conocida como Red Neuronal Convolucional 3D. Mi solución está inspirada en la propuesta por Molchanov et al en su trabajo [1] donde son usadas técnicas de "data augmentation" tanto temporal como espacial. En mi caso he trabajado con dos datasets distintos. El primero estaba preparado. Con él, he conseguido un acierto de casi 65% El segundo (Al cual me referiré como Telepresence Dataset) ha sido creado por mí. Con él, no he obtenido resultados positivos. |
Abstract:
|
Des de l’aparició dels sistemes informàtics, un dels aspectes que han ajudat a l’augment
de la seva popularitat ha estat la simplificació de la comunicació Usuari-Ordinador,
altrament coneguda com interfície d’usuari. Actualment l’avantguarda d’aquest camp es
troba en les tècniques conegudes com a touchless que, tal i com el seu nom indica,
consisteixen en una comunicació que no impliqui tocar cap hardware, ja sigui mitjançant
àudio o vídeo.
En aquest projecte treballo el reconeixement de gestos dinàmics fets amb les mans
utilitzant seqüències RGB-D gravades amb un sensor Kinect. Per dur a terme això he
utilitzat una tècnica que combina computer vision i deep learning coneguda com a Xarxa
Neuronal Convolucional 3D.
La meva solució està inspirada en la que proposen Molchanov et al en el seu treball [1] on
s’utilitzen tècniques de data augmentation tant temporal com espacialment.
En el meu cas he treballat amb dos datasets diferents.
El primer estava preparat. Amb ell, s’ha aconseguit un encert de quasi 65%.
El segon (Al qual em referiré com a Telepresence Dataset) ha estat creat per mi. Amb ell,
no he obtingut resultats positius. |
Materia(s):
|
-Àrees temàtiques de la UPC::Enginyeria de la telecomunicació -Machine learning -Computer vision -Machine learning -Computer vision -Aprendizaje automático -Visión por ordenador -Aprenentatge automàtic -Visió per ordinador |
Derechos:
|
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
Tipo de documento:
|
Trabajo/Proyecto fin de carrera |
Editor:
|
Universitat Politècnica de Catalunya
|
Compartir:
|
|