Sistema ETL automatizado y escalable en la nube

Ingeniería de Datos: Estrategias Modernas y Aplicaciones Prácticas

Other authors

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Marín Tordera, Eva

Publication date

2025-05-30

Abstract

Títol alternatiu emprat a la intranet docent de l'EPSEVG: "Ingeniería de Datos: Estrategias Modernas y Aplicaciones Prácticas"


Este Trabajo de Fin de Grado presenta el diseño e implementación de un sistema ETL (Extract, Transform, Load) automatizado y escalable en la nube, orientado a la integración eficiente de datos meteorológicos y de consumo a partir de APIs externas. Aprovechando los servicios de la plataforma Microsoft Azure, como Azure Data Factory, Azure Storage, Azure Databricks, Azure Functions y Power BI, se ha desarrollado una arquitectura modular que automatiza el flujo de datos desde su origen hasta su visualización final. La solución planteada aborda retos comunes en entornos tradicionales on-premise, como la escalabilidad limitada, la rigidez operativa y el alto coste de mantenimiento, proponiendo como alternativa una infraestructura cloud que favorece la elasticidad, la eficiencia económica y la gobernanza de datos. Se ha utilizado .NET C# para la conexión segura con APIs, Scala con Apache Spark en Databricks para el procesamiento distribuido, y Power BI para la explotación analítica. Desde el punto de vista metodológico, se ha seguido un enfoque iterativo de desarrollo ágil con validación progresiva por capas: entorno local, entorno cloud aislado y entorno productivo completo. Las pruebas realizadas permiten evidenciar un sistema funcional y eficiente, con métricas de rendimiento que superan las soluciones tradicionales. Se identifican además cuellos de botella derivados del uso de archivos pequeños y del modelo de inserción SQL, proponiendo soluciones como la consolidación de archivos, el uso de punteros con Autoloader y una mejor orquestación centralizada con ADF. El trabajo también recoge propuestas para optimizar costes, como el uso de instancias específicas (B-series o Dv5) según el tipo de carga, y considera aspectos de sostenibilidad y gobernanza, incluyendo la preparación para el cumplimiento del RGPD en proyectos que incorporen datos sensibles. A nivel académico, este TFG aplica conocimientos adquiridos en asignaturas como Fundamentos de la Informática (FUIN), Arquitectura y Desarrollo de Software (ADSO) y Bases de Datos (DABD), reflejando una sólida base en cloud, ETL y modelado de datos. En conclusión, el proyecto no solo valida la viabilidad técnica de una solución ETL moderna, sino que también evidencia el cambio de paradigma hacia arquitecturas cloud, destacando su impacto positivo en eficiencia, automatización, gobernanza y sostenibilidad. Este TFG constituye una base sólida para futuras extensiones como flujos de streaming, aprendizaje automático o ampliaciones multi-API.


This Final Degree Project presents the design and implementation of an automated and scalable cloud-based ETL (Extract, Transform, Load) system for the efficient integration of meteorological and consumption data from external APIs. Leveraging Microsoft Azure platform services such as Azure Data Factory, Azure Storage, Azure Databricks, Azure Functions, and Power BI, a modular architecture was developed that automates the data flow from source to final visualization. The proposed solution addresses common challenges in traditional on-premise environments, such as limited scalability, operational rigidity, and high maintenance costs, proposing a cloud infrastructure that favors elasticity, economic efficiency, and data governance. .NET C# was used for secure connection to APIs, Scala with Apache Spark in Databricks for distributed processing, and Power BI for analytical exploitation. From a methodological perspective, an iterative agile development approach was followed with progressive layered validation: local environment, isolated cloud environment, and full production environment. The tests conducted demonstrate a functional and efficient system, with performance metrics that outperform traditional solutions. Bottlenecks derived from the use of small files and the SQL insertion model were also identified, proposing solutions such as file consolidation, the use of pointers with Autoloader, and improved centralized orchestration with ADF. The work also includes proposals for cost optimization, such as the use of specific instances (B-series or Dv5) depending on the load type, and considers sustainability and governance aspects, including preparation for GDPR compliance in projects that incorporate sensitive data. At an academic level, this final project applies knowledge acquired in subjects such as Computer Science Fundamentals (FUIN), Software Architecture and Development (ADSO), and Databases (DABD), reflecting a solid foundation in cloud, ETL, and data modeling. In conclusion, the project not only validates the technical feasibility of a modern ETL solution but also demonstrates the paradigm shift toward cloud architectures, highlighting their positive impact on efficiency, automation, governance, and sustainability. This TFG provides a solid foundation for future extensions such as streaming, machine learning, or multi-API extensions.

Document Type

Bachelor thesis

Language

Spanish

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

Open Access

This item appears in the following Collection(s)