dc.contributor |
Ruiz Hidalgo, Javier |
dc.contributor.author |
Marí Pardo, Juan Luis |
dc.date |
2016-05-23 |
dc.identifier.citation |
ETSETB-230.113263 |
dc.identifier.uri |
http://hdl.handle.net/2117/88246 |
dc.language.iso |
eng |
dc.publisher |
Universitat Politècnica de Catalunya |
dc.rights |
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' |
dc.rights |
info:eu-repo/semantics/openAccess |
dc.rights |
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
dc.subject |
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació |
dc.subject |
Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial |
dc.subject |
Neural networks (Computer science) |
dc.subject |
Artificial intelligence |
dc.subject |
Image processing |
dc.subject |
neuronal networks |
dc.subject |
procesado de imagen |
dc.subject |
redes neuronales |
dc.subject |
Xarxes neuronals (Informàtica) |
dc.subject |
Intel·ligència artificial |
dc.subject |
Imatges -- Processament |
dc.title |
Deep-Learning in 3D View |
dc.title |
Aprendizaje profundo en vistas 3D |
dc.title |
Aprenentatge profund en vistes 3D |
dc.type |
info:eu-repo/semantics/bachelorThesis |
dc.description.abstract |
The main idea of this project is to investigate the use of novel deep learning techniques and to apply them in the reconstruction of virtual views in multi-view scenarios. Using a set of discrete views of the scene recorded with real cameras, deep learning techniques will be used to compute views from virtual cameras. |
dc.description.abstract |
This project arose in response to the tremendous growth in the use of Deep Learning techniques in different fields of research in recent years. The main goal consists on integrating a neural network in a system to generate stereo images. Specifically, the aim of this work is the synthesis of a virtual view at a distance of 6 cm from an incoming image, according to the separation between eyes so both images could be able to perform binocular vision. To do this, an estimation of the depth map of the input image is needed, performed by a Convolutional Neural Network (CNN) used to extract features and thereby be able to compute depths. This procedure generates a 3D point cloud from which to render the new view by geometric reprojections based on Image-Based Rendering Techniques (IBRT). The results have been similar to those expected without achieving improvements over the state-of-art but considerably close. |
dc.description.abstract |
Este proyecto nace dado el gran crecimiento en el uso de técnicas de Deep Learning en distintos campos de investigación producido en los últimos años, con la intención de integrar una red neuronal en un sistema para la generación de imágenes estéreo. Concretamente, el objetivo del trabajo es la síntesis de una vista virtual situada a una distancia de 6 cm de una imagen entrante, de acuerdo con la separación aproximada entre ojos de manera que ambas imágenes generen visión binocular. Para ello, es necesaria una estimación del mapa de profundidad de la imagen entrante, la cual ha sido realizada mediante una red neuronal convolucional (CNN) capaz de extraer sus características y así estimar profundidades. Con esto obtendremos una nube de puntos 3D a partir de la cual generar la nueva vista mediante reproyecciones geométricas basadas en Image-Based Rendering Techniques (IBRT). Los resultados obtenidos han sido similares a los esperados, sin lograr mejoras respecto el estado del arte actual, pero considerablemente cercanos. |
dc.description.abstract |
Aquest projecte neix donat el gran creixement en l'ús de tècniques de Deep Learning en diferents camps d'investigació produït en els últims anys, amb la intenció d'integrar una xarxa neuronal en un sistema per a la generació d'imatges estèreo. Concretament, l'objectiu és la creació d'una vista virtual situada a una distància de 6 cm d'una imatge d’entrada, en acordància amb la separació aproximada entre ulls de manera que ambdúes imatges generin una visió binocular. Per això, és necessària una estimació del mapa de profunditat de la imatge entrant, realitzada mitjançant una xarxa neuronal convolucional (CNN) capacitada per extraure les seves característiques i estimar profunditats. Amb això obtindrem un núvol de punts 3D a partir del qual generar la nova vista mitjançant reprojeccions geomètriques basades en Image-Based Rendering Techniques (IBRT). Els resultats obtinguts han set similars als esperats, sense aconseguir millores respecte a l’actual State-Of-Art, però considerablement pròxims. |