Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa
HKUST
Perez Palomar, Daniel
2026-02-26
Les dades del Llibre d'Ordres Límit (LOB) presenten característiques intrínsecament sorolloses i no estacionàries, les quals són encara més pronunciades en el context del Trading d'Alta Freqüència (HFT). Aquests reptes compliquen la tasca de construir models predictius efectius per a la presa de decisions financeres. Els enfocaments existents solen basar-se en arquitectures complexes d'aprenentatge profund d'extrem a extrem o en una extensa enginyeria de característiques específica del domini; ambdues opcions requereixen recursos computacionals substancials i coneixement expert. En aquesta tesi, proposem i avaluem una nova metodologia que utilitza Models Fundacionals de Sèries Temporals (TSFMs) com a extractors de característiques de propòsit general, combinant específicament els embeddings de Chronos 2 amb l'Anàlisi de Components Principals (PCA) i classificadors lleugers simples. El flux de treball proposat es compara tant amb models existents d'aprenentatge profund d'extrem a extrem de l'estat de l'art, com amb classificadors temporals clàssics d'aprenentatge profund entrenats amb característiques economètriques dissenyades manualment, utilitzant dades d'alta freqüència de futurs de Bitcoin. Els nostres resultats demostren que una simple Regressió Logística entrenada sobre els embeddings del TSFM aconsegueix un rendiment competitiu amb arquitectures complexes basades en transformers, utilitzant més d'un 99.9% menys de paràmetres entrenables. Específicament, l'enfocament proposat supera els models de l'estat de l'art en tasques de predicció a curt horitzó i escenaris amb un alt desequilibri de classes, alhora que mostra una menor variància de rendiment en diverses condicions de mercat. Tot i que les arquitectures específiques de la tasca, com TLOB, mantenen un avantatge en prediccions a major horitzó, les nostres troballes indiquen que els TSFMs de propòsit general ofereixen una alternativa robusta, altament eficient i agnòstica [...].
Los datos del Libro de Órdenes Límite (LOB) presentan características inherentemente ruidosas y no estacionarias, que se acentúan aún más en el contexto del Trading de Alta Frecuencia (HFT). Estos retos complican la tarea de crear modelos predictivos eficaces para la toma de decisiones financieras. Los enfoques existentes suelen basarse en complejas arquitecturas de aprendizaje profundo de extremo a extremo o en una amplia ingeniería de características específicas del dominio, lo que requiere importantes recursos computacionales y conocimientos especializados. En esta tesis, proponemos y evaluamos una nueva metodología que utiliza modelos fundacionales de series temporales (TSFM) como extractores de características de uso general, combinando específicamente los embeddings de Chronos 2 con el Análisis de Componentes Principales (PCA) y clasificadores simples. El proceso propuesto se compara con los modelos de aprendizaje profundo de extremo a extremo más avanzados existentes, y con los clasificadores temporales de aprendizaje profundo clásicos entrenados con características econométricas creadas manualmente, utilizando datos del mercado de futuros de Bitcoin de alta frecuencia. Nuestros resultados demuestran que una simple regresión logística entrenada sobre los embeddings del TSFM alcanza un rendimiento competitivo con las complejas arquitecturas basadas en Transformers, utilizando más de un 99.9% menos de parámetros entrenables. Concretamente, el enfoque propuesto supera a los modelos de última generación en tareas de predicción a corto plazo y en escenarios con clases muy desequilibradas, al tiempo que muestra una menor varianza del rendimiento en condiciones de mercado variables. Si bien las arquitecturas específicas para cada tarea, como TLOB, mantienen una ventaja en las predicciones a largo plazo, nuestros hallazgos indican que los TSFM de uso general ofrecen una alternativa robusta, altamente eficiente y agnóstica [...].
Limit Order Book (LOB) data presents inherently noisy and non-stationary characteristics, which are further pronounced in the context of High-Frequency Trading (HFT). These challenges complicate the task of building effective financial price trend prediction models. Existing approaches typically rely on complex end-to-end deep learning architectures or extensive domain-specific feature engineering, both of which require substantial computational resources and expert knowledge. In this thesis, we propose and evaluate a novel methodology utilizing Time Series Foundation Models (TSFMs) as general-purpose feature extractors, specifically combining Chronos 2 embeddings with Principal Component Analysis (PCA) and simple lightweight classifiers. The proposed pipeline is compared against both existing state-of-the-art end-to-end deep learning models, and classical deep learning temporal classifiers trained on handcrafted econometric features, using high-frequency Bitcoin futures data. Our results demonstrate that a simple Logistic Regression trained on top of the TSFM embeddings achieves performance competitive with complex transformer-based architectures while using over 99.9% fewer trainable parameters. Specifically, the proposed approach outperforms state-of-the-art models in short-horizon prediction tasks and scenarios with high class imbalance, while also showcasing a lower performance variance across varying market conditions. We show that general-purpose TSFMs offer a robust, parameter efficient, and domain-agnostic alternative for financial time series classification.
Outgoing
Bachelor thesis
English
Àrees temàtiques de la UPC::Matemàtiques i estadística; Deep learning; Capital market; Machine learning; Supervised Learning; Deep Learning; Time Series Classification; Time Series Foundation Models; Limit Order Book; High-Frequency Trading; Aprenentatge profund; Mercats financers; Aprenentatge automàtic; Classificació AMS::68 Computer science::68T Artificial intelligence; Classificació AMS::62 Statistics::62M Inference from stochastic processes
Universitat Politècnica de Catalunya
http://creativecommons.org/licenses/by-nc-sa/4.0/
Open Access
Attribution-NonCommercial-ShareAlike 4.0 International
Treballs acadèmics [82502]