2026-04-13T13:17:05Zhttps://recercat.cat/oai/request

oai:recercat.cat:2117/4488362025-12-06T08:52:01Zcom_2072_1033col_2072_452951

2025-12-06T08:52:01Z urn:hdl:2117/448836 High-resolution reconstruction of historical land surface data with machine learning Millán Iglesias, Enric Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic Machine learning Neural networks (Computer science) Climatic changes--Forecasting Aprenentatge automàtic Xarxes neuronals (Informàtica) Canvis climàtics--Previsió L'Índex de Superfície Foliar (LAI, per les seves sigles en anglès) és una mètrica adimensional que quantifica l'àrea total de fulles verdes (d'una sola cara) per unitat de superfície del sòl. És una variable clau en la modelització climàtica i ecològica, ja que afecta directament processos com la fotosíntesi, l'evapotranspiració i l'intercanvi d'energia entre la superfície terrestre i l'atmosfera. Tot i que les observacions per satèl·lit modernes proporcionen estimacions fiables del LAI, aquests registres només cobreixen unes poques dècades. Per això, és essencial reconstruir amb precisió el LAI històric per comprendre la dinàmica de la vegetació a llarg termini i millorar la fiabilitat dels models climàtics en escales temporals prolongades. Aquesta tesi es basa en un treball previ que va utilitzar eXtreme Gradient Boosting (XGBoost), un algoritme d'aprenentatge automàtic molt potent i àmpliament emprat per a dades estructurades, per reconstruir el LAI històric. Per facilitar l'exploració d'alternatives d'aprenentatge profund, el flux d'entrenament original -desenvolupat per a XGBoost- es va reimplementar utilitzant PyTorch, un entorn d'aprenentatge profund de codi obert reconegut per la seva flexibilitat i rendiment. La nova implementació modular va reduir la mida de l'script principal a menys de la meitat, en va millorar el manteniment i en va augmentar la qualitat, obtenint una puntuació perfecta de 10.0/10 segons Pylint, una eina d'anàlisi estàtica del codi que garanteix el compliment dels estàndards de Python. Sobre aquesta base, la tesi investiga l'ús de Xarxes Neuronals Recurrents (RNN), una arquitectura d'aprenentatge profund especialment adequada per modelar dades seqüencials, per a la reconstrucció del LAI històric. Els models s'han provat en tres regions geogràfiques diferents: una caracteritzada per vegetació densa i valors alts de LAI constants, una altra amb vegetació escassa i valors baixos, i una tercera amb un paisatge més heterogeni i una distribució del LAI més variada. Els resultats mostren que els models d'aprenentatge profund aconsegueixen un rendiment predictiu comparable respecte al model de referència, tot reduint el temps d'entrenament en més del 50\% i requerint menys recursos computacionals de manera consistent. A més, s'han dut a terme diversos estudis addicionals per analitzar la capacitat de generalització i la robustesa de l'enfocament de modelització. Aquests han inclòs entrenament conjunt entre regions, anàlisi dels efectes de la mida del conjunt d'entrenament i transformacions per tractar distribucions asimètriques del LAI. Els resultats indiquen que els models independents per regió ofereixen actualment el millor rendiment, que augmentar la quantitat de dades d'entrenament millora generalment la precisió del model, i que, tot i que la transformació logarítmica no ha aportat millores significatives, suggereix que altres tècniques per abordar l'asimetria de les dades podrien ser útils. Leaf Area Index (LAI) is a dimensionless metric that quantifies the total one-sided green leaf area per unit of ground surface. It is a key variable in climate and ecological modeling, as it directly affects processes such as photosynthesis, evapotranspiration, and energy exchange between the land surface and the atmosphere. While modern satellite observations provide reliable LAI estimates, these records only extend back a few decades. As a result, accurate reconstructions of historical LAI are essential for understanding long-term vegetation dynamics and enhancing the reliability of climate models over extended timescales. This thesis builds upon previous work that employed eXtreme Gradient Boosting (XGBoost), a powerful machine learning algorithm widely used for structured data, for reconstructing historical LAI. To support the exploration of deep learning alternatives, the original training workflow, initially developed for XGBoost, was re-implemented using PyTorch, an open-source deep learning framework known for its flexibility and performance. The new modular implementation reduced the size of the main script by more than half, improved maintainability, and enhanced code quality, achieving a perfect score of 10.0/10 as assessed by Pylint, a static analysis tool that enforces Python coding standards. Building on this foundation, the thesis investigates the use of Recurrent Neural Networks (RNNs), a type of deep learning architecture well-suited for modeling sequential data, for reconstructing historical LAI. Models are benchmarked across three distinct geographic regions: one characterized by dense vegetation and consistently high LAI values, another with sparse vegetation and low LAI values, and a third with a more heterogeneous landscape and varied LAI distribution. Results show that the deep learning models achieve comparable predictive performance with respect to the baseline model, while reducing training time by more than 50\% and consistently requiring fewer computational resources. Additionally, a series of case studies explored the generalizability and robustness of the modeling approach. These included joint training across regions, analysis of training set size effects, and transformations to handle skewed LAI distributions. The results indicate that regionally independent models currently offer the best performance, increased training data generally improves model accuracy, and while logarithmic transformation did not yield substantial gains, it suggests that other techniques to address data skewness may be beneficial. El Índice de Area Foliar (LAI, por sus siglas en inglés) es una métrica adimensional que cuan- ´ tifica el área total de hojas verdes (de un solo lado) por unidad de superficie terrestre. Es una variable clave en la modelización climática y ecológica, ya que afecta directamente a procesos como la fotosíntesis, la evapotranspiración y el intercambio de energía entre la superficie terrestre y la atmósfera. Aunque las observaciones satelitales modernas proporcionan estimaciones fiables del LAI, estos registros solo abarcan unas pocas décadas. Por ello, es esencial reconstruir con precisión el LAI histórico para comprender la dinámica de la vegetación a largo plazo y mejorar la fiabilidad de los modelos climáticos en escalas temporales extendidas. Esta tesis se basa en un trabajo previo que empleó eXtreme Gradient Boosting (XGBoost), un potente algoritmo de aprendizaje automático ampliamente utilizado con datos estructurados, para la reconstrucción del LAI histórico. Para facilitar la exploración de alternativas basadas en aprendizaje profundo, el flujo de entrenamiento original —desarrollado para XGBoost— se reimplementó utilizando PyTorch, un marco de aprendizaje profundo de código abierto conocido por su flexibilidad y rendimiento. La nueva implementación modular redujo el tamaño del script principal a menos de la mitad, mejoró el mantenimiento del código y elevó su calidad, logrando una puntuación perfecta de 10.0/10 según la herramienta Pylint, que realiza un análisis estático del código y garantiza el cumplimiento de estándares en Python. Sobre esta base, la tesis investiga el uso de Redes Neuronales Recurrentes (RNN), una arquitectura de aprendizaje profundo especialmente adecuada para modelar datos secuenciales, en la reconstrucción del LAI histórico. Los modelos se evalúan en tres regiones geográficas distintas: una con vegetación densa y altos valores de LAI constantes, otra con vegetación escasa y valores bajos de LAI, y una tercera con un paisaje más heterogéneo y distribución variable de LAI. Los resultados muestran que los modelos de aprendizaje profundo alcanzan un rendimiento predictivo comparable con respecto al modelo de referencia, al mismo tiempo que reducen el tiempo de entrenamiento en más del 50% y requieren sistemáticamente menos recursos computacionales. Además, se realizaron estudios adicionales para explorar la capacidad de generalización y la robustez del enfoque de modelización. Estos incluyeron entrenamiento conjunto entre regiones, análisis del efecto del tamaño del conjunto de entrenamiento y transformaciones para abordar distribuciones asimétricas del LAI. Los resultados indican que los modelos independientes por región ofrecen actualmente el mejor rendimiento, que un mayor volumen de datos de entrenamiento mejora generalmente la precisión del modelo, y que aunque la transformación logarítmica no produjo mejoras sustanciales, sugiere que otras técnicas para tratar la asimetría de los datos podrían ser beneficiosas. 2025-12-06T08:52:01Z 2025-12-06T08:52:01Z 2025-06-27 Bachelor thesis http://hdl.handle.net/2117/448836 Open Access Universitat Politècnica de Catalunya