GAN para la creación de imágenes sintéticas basadas en texto

Other authors

Universitat Politècnica de Catalunya. Departament d'Enginyeria Electrònica

Soria Pérez, José Antonio

Publication date

2024-07-15

Abstract

This Bachelor’s Thesis explores the development of a Conditional Generative Adversarial Network (CGAN) designed to generate dog images based on specific breed names. The project focuses on ten different dog breeds and evaluates the model’s ability to create visually realistic images. To train the CGAN, a dataset augmented with various techniques was employed, addressing the need for diverse input data. The evaluation process included a Visual Recognition Rate assessment, where human evaluators rated the realism of 50 generated images. Out of these, 20 images were identified as dogs by at least half of the evaluators, resulting in a 40 % recognition rate based on realism criteria. This outcome highlights the CGAN’s capability to produce recognizable dog images but also underscores the necessity for further improvements. Key findings suggest that the quality of the dataset and the architecture of the model significantly impact the results. Issues such as contrast, brightness, and deformation were noted, indicating areas for enhancement. The generated images displayed recognizable features of different dog breeds, although some images were indistinguishable or clearly deformed. The conclusions recommend focusing on higher-quality datasets and refining the CGAN architecture to achieve better performance. Future work should explore advanced dataset acquisition strategies and further optimization of model parameters to enhance image realism and breed specificity


Este Trabajo de Fin de Grado aborda el desarrollo de una Red Generativa Adversaria Condicional (CGAN) destinada a la generación de imágenes de perros a partir de nombres de razas específicas. El proyecto se centra en diez razas distintas de perros y evalúa la capacidad del modelo para crear imágenes visualmente realistas. Para entrenar la CGAN, se utilizó un conjunto de datos ampliado con diversas técnicas de aumento, abordando la necesidad de datos de entrada variados. El proceso de evaluación incluyó una tasa de reconocimiento visual, donde evaluadores humanos calificaron el realismo de 50 imágenes generadas. De estas, 20 imágenes fueron identificadas como perros por al menos la mitad de los evaluadores, resultando en una tasa de reconocimiento del 40 % basada en criterios de realismo. Este resultado destaca la capacidad de la CGAN para producir imágenes de perros reconocibles, pero también subraya la necesidad de mejoras adicionales. Los hallazgos clave sugieren que la calidad del conjunto de datos y la arquitectura del modelo impactan significativamente en los resultados. Se notaron problemas como contraste, brillo y deformación, lo que indica áreas para mejorar. Las imágenes generadas mostraron características reconocibles de diferentes razas de perros, aunque algunas imágenes eran indistinguibles o claramente deformadas. Las conclusiones recomiendan centrarse en conjuntos de datos de mayor calidad y refinar la arquitectura de la CGAN para lograr un mejor rendimiento. El trabajo futuro debería explorar estrategias avanzadas de adquisición de conjuntos de datos y una mayor optimización de los parámetros del modelo para mejorar el realismo de las imágenes y la especificidad de la raza.

Document Type

Bachelor thesis

Language

Spanish

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

Open Access

This item appears in the following Collection(s)