A detector-assisted framework for multi-object tracking using Segment Anything Model 2 (SAM2)

Other authors

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Technische Universität München

Cremers, Daniel

Zaplana Agut, Isiah

Publication date

2025-06-27



Abstract

Multiobject tracking (MOT) is a critical technology for human–robot collaboration, allowing machines to understand and adapt to dynamic scenes in real time. MOT is a multidimensional problem that requires carefully detecting, identifying, and following multiple targets in dynamic scenes, forming the backbone of advanced surveillance, autonomous driving, and human–robot interaction systems. Traditionally, MOT has been approached by the use of the tracking-by-detection paradigm, which consists in detecting objects in each frame and then linking them over time via association algorithms. However, the recent appearance of SAM2 model, a foundation segmentation model that natively supports both images and videos, has propelled the state of the art of an alternative approach, the socalled tracking-by-segmentation paradigm. Tracking-by-segmentation approaches substitute a detection-centric pipeline by a mask-centric model, offering zero-shot, promptable segmentation and tracking in one unified architecture. Even though SAM2-based MOT has a lot of potential, there are several issues that need to be overcome in order to maximize the model’s performance. In particular, SAM2 is known to suffer when dealing with occlusions, a phenomenon that is very common in MOT scenarios. Occlusions occur whenever a foreground object passes in front of a tracked background object, hiding it from sight. Depending on the severity of the occlusion, an object may be completely lost by SAM2, without the model noticing. The goal of this bachelor thesis is precisely to introduce a detector-assisted framework that improves the performance of SAM2-based MOT. In more detail, we aim at designing heuristic methods to disambiguate and solve complex occlusions, ensuring ID consistency during object trajectories and detecting and stopping low-quality trajectories due to either errors in the detection or errors in the trajectory propagation by SAM2. This work is divided into four main blocks, each of which is explained in depth in the report. Firstly, a detailed description of the approaches and challenges in MOT as well as the state-of-the-art of current approaches are presented. Afterwards, we begin experimentation by using a vanilla implementation of SAM2. This step allows familiarization with the SAM2 package and the datasets that will be used for experimentation, as well as setting up the cluster environment that will be used during the whole project. In particular, we focus on datasets that provide annotated person trajectories across very diverse scenarios, specifically the MOTChallenge benchmarks, including MOT17 and MOTS. Next, we explore the relevance of each parameter in the SAM2 configuration when working with a boxbased framework. Although bounding-boxes are less flexible and not native to SAM2, they allow for fast iterative experimentation, which proves to be extremely useful to gain insights on the effect on performance of several parameters. In this setting, we identify that determining a proper threshold value for Intersection over Union (IoU) Non-Maximum Suppression (NMS) is crucial in cutting trajectories that are lost after an occlusion. Additionally, we develop a compact and representative way of interpreting the results of a model, which mitigates the need for frame-by-frame inspection of the generated trajectories. We conclude this block by identifying the limitations of our methodology, some of which are due to native incompatibilities between SAM2’s masks and the bounding-box ground truths. The last part of the project is devoted to the detector-assisted mask-based MOT model. In the previous block, trajectories were being initialized using ground truth data to isolate SAM2 from errors. However, this approach is not useful in real-world scenarios, in which these ground truths are not available. Hence, initial efforts are put towards the integration of the You Only Look Once (YOLO) detector. Once the detector is successfully integrated into the workflow, recovering performance levels comparable to those achieved with ground truth-based initialization, we shift our focus to implementing disambiguation strategies to handle occlusions. This is done via a modification of our previous NMS-based approach that takes into account not only the IoU between two overlapping masks, but also its Intersection over Smaller Area (IoSA). Additionally, we incorporate a new score metric that tracks the quality of the trajectories at every frame, such that trajectories with consistent low scores are discarded, and sporadic errors in YOLO don’t lead to undesired object initializations. We observe that our final algorithm improves the state-of-the-art in index tracking consistency metrics, and is close to it for mask quality ones. Incidentally, we identify that a refinement on the detector, which is not the focus of the work, would most-likely improve the performance of our model in these latter metrics to push it over the stateof-the-art as well. In closing, this thesis shows that augmenting SAM2’s powerful mask‐centric segmentation with a detector‐assisted framework and targeted occlusion heuristics can dramatically improve multiobject tracking performance, especially in terms of identity consistency. By combining YOLO‐based initialization, IoU/IoSA‐driven NMS refinement, and per‐frame trajectory scoring to prune unreliable tracks, the proposed approach achieves state‐of‐the‐art tracking consistency on benchmark datasets. These results not only validate the potential of hybrid segmentation–detection pipelines for real‐world MOT, but also pave the way for future enhancements, such as adaptive thresholding and detector fine‐ tuning, to further push mask‐based tracking beyond current limits.


El seguiment de múltiples objectes (MOT) és una tecnologia clau per afavorir la col·laboració entre humans i robots, que permet a les màquines entendre i adaptar-se a escenes dinàmiques en temps real. El MOT és un problema multidimensional que requereix detectar, identificar i seguir amb precisió diversos objectes en escenes en moviment, formant la base de sistemes avançats de vigilància, conducció autònoma i interacció entre humans i robots. Tradicionalment, el MOT s’ha abordat mitjançant el paradigma de seguiment per detecció, que consisteix a detectar objectes a cada fotograma i després vincular-los al llarg del temps amb algoritmes d’associació. Tanmateix, l’aparició recent del model SAM2, un model de segmentació fonamental que admet tant imatges com vídeos, ha impulsat l’estat de l’art d’un enfocament alternatiu: el paradigma de seguiment per segmentació. Aquests mètodes substitueixen la canalització centrada en la detecció per un model centrat en màscares, oferint segmentació i seguiment zero-shot, guiats per indicacions, en una única arquitectura unificada. Tot i que el MOT basat en SAM2 té un gran potencial, cal superar diversos reptes per maximitzar-ne el rendiment. En particular, és sabut que SAM2 pateix quan ha de tractar oclusions, un fenomen molt comú en escenaris de MOT. Les oclusions es produeixen quan un objecte en primer pla passa davant d’un objecte de fons en seguiment, ocultant-lo a la vista. Segons la gravetat de l’oclusió, un objecte pot perdre’s completament pel SAM2, sense que el model se n’adoni. L’objectiu d’aquesta tesi de grau és desenvolupar un model basat en SAM2 per MOT assistit per un detector que en millori el rendiment. Concretament, es pretén dissenyar mètodes heurístics per desambiguar i resoldre oclusions complexes, garantir la consistència d’identitat durant les trajectòries dels objectes i detectar i aturar trajectòries de baixa qualitat derivades tant d’errors en la detecció com d’errors en la propagació de trajectòries per part de SAM2. Aquesta feina es divideix en quatre blocs principals, cadascun desenvolupat en detall al document. En primer lloc, es presenta una descripció exhaustiva dels diferents enfocaments i reptes del MOT, així com de l’estat de l’art dels mètodes actuals. Després, comencem l’experimentació amb una implementació bàsica de SAM2. Aquesta fase permet familiaritzar-se amb el paquet SAM2, amb els conjunts de dades que s’utilitzaran i amb la configuració de l’entorn de càlcul en clúster. En particular, ens centrem en conjunts de dades que proporcionen trajectòries anotades de persones en escenaris molt diversos, específicament els bancs de proves MOTChallenge, com ara MOT17 i MOTS. Tot seguit, explorem la importància de cadascun dels paràmetres de configuració de SAM2 en un marc basat en caixes delimitadores. Encara que les caixes són menys flexibles i no són nadiues de SAM2, permeten una experimentació iterativa ràpida, molt útil per entendre com afecten diferents paràmetres al rendiment del model. En aquest context, identifiquem que determinar un llindar òptim per a la Supressió No Màxima (NMS) basada en la Intersecció sobre Unió (IoU) és fonamental per tallar trajectòries que es perden després d’una oclusió. A més, desenvolupem una manera compacta i representativa d’interpretar els resultats del model, evitant la revisió fotograma a fotograma de les trajectòries generades. Concloem aquest bloc identificant les limitacions de la nostra metodologia, algunes de les quals provenen d’incompatibilitats entre les màscares de SAM2 i les caixes delimitadores de referència. Finalment, la darrera part del projecte es dedica al model de MOT basat en màscares amb assistència de detector. En el bloc anterior, les trajectòries s’inicialitzaven amb dades de referència per aïllar SAM2 d’errors. No obstant això, aquest enfocament no és viable en escenaris reals, on no es disposa d’aquestes dades. Per això, les primeres tasques se centren en la integració del detector You Only Look Once (YOLO). Un cop el detector està integrat amb èxit al flux de treball i recupera nivells de rendiment comparables als obtinguts amb inicialització basada en dades de referència, ens enfoquem en implementar estratègies de desambiguació per gestionar les oclusions. Això s’aconsegueix modificant l’enfocament de NMS perquè consideri no només l’IoU entre dues màscares superposades, sinó també la Intersecció sobre l’Àrea Menor (IoSA). Addicionalment, incorporem una nova mètrica de puntuació que avalua la qualitat de les trajectòries a cada fotograma, de manera que les trajectòries amb puntuacions consistentment baixes es descarten i els errors esporàdics de YOLO no condueixin a inicialitzacions indesitjades. Observem que el nostre algoritme final millora l’estat de l’art en mètriques de consistència d’identitat i s’apropa als millors resultats en mètriques de qualitat de màscara. De manera incidental, identifiquem que un refinament del detector, que no és l’objectiu principal del treball, milloraria probablement el rendiment del model en aquestes últimes mètriques per superar completament l’estat de l’art. Per concloure, aquesta tesi demostra que augmentar la potent segmentació centrada en màscares de SAM2 amb un marc assistit per detectors i heurístiques específiques per a les oclusions pot millorar de manera dràstica el rendiment del seguiment de múltiples objectes, especialment pel que fa a la consistència d’identitat. En combinar la inicialització amb YOLO, la refinació de NMS guiada per IoU/IoSA i l’avaluació de trajectòries fotograma a fotograma per eliminar seguiments no fiables, l’enfocament proposat aconsegueix la consistència de seguiment de l’estat de l’art en bancs de proves de referència. Aquests resultats no només validen el potencial dels enfocaments híbrids de segmentació i detecció per al MOT en entorns reals, sinó que també obren la porta a futures millores, com el llindatge adaptatiu i l’ajust fi del detector, per empènyer encara més el seguiment centrat en màscares més enllà dels límits actuals.


El seguimiento de múltiples objetos (MOT) es una tecnología crítica para la colaboración entre humanos y robots, que permite a las máquinas comprender y adaptarse a escenas dinámicas en tiempo real. El MOT es un problema multidimensional que requiere detectar, identificar y seguir con precisión varios objetivos en escenas en movimiento, formando la base de sistemas avanzados de vigilancia, conducción autónoma e interacción entre humanos y robots. Tradicionalmente, el MOT se ha abordado mediante el paradigma de seguimiento por detección, que consiste en detectar objetos en cada fotograma y luego enlazarlos a lo largo del tiempo con algoritmos de asociación. Sin embargo, la reciente aparición del modelo SAM2, un modelo de segmentación fundacional que admite tanto imágenes como vídeos, ha impulsado el estado del arte de un enfoque alternativo: el paradigma de seguimiento por segmentación. Estos métodos sustituyen la canalización centrada en la detección por un modelo centrado en máscaras, ofreciendo segmentación y seguimiento zero‑shot, guiados por indicaciones, en una única arquitectura unificada. Aunque el MOT basado en SAM2 tiene un gran potencial, es necesario superar varios retos para maximizar su rendimiento. En particular, se sabe que SAM2 flaquea al tratar con oclusiones, un fenómeno muy común en escenarios de MOT. Las oclusiones se producen cuando un objeto en primer plano pasa delante de un objeto de fondo en seguimiento, ocultándolo a la vista. Dependiendo de la gravedad de la oclusión, un objeto puede perderse por completo para SAM2, sin que el modelo lo advierta. El objetivo de esta tesis es desarrollar un modelo basado en SAM2 para MOT asistido por un detector que mejore su rendimiento. Concretamente, se pretende diseñar métodos heurísticos para desambiguar y resolver oclusiones complejas, garantizar la consistencia de identidad durante las trayectorias de los objetos y detectar y detener las trayectorias de baja calidad derivadas tanto de errores en la detección como de errores en la propagación de trayectorias por parte de SAM2. Este trabajo se divide en cuatro bloques principales, cada uno desarrollado en detalle en el documento. En primer lugar, se presenta una descripción exhaustiva de los diferentes enfoques y retos del MOT, así como del estado del arte de los métodos actuales. A continuación, comenzamos la experimentación con una implementación básica de SAM2. Esta fase permite familiarizarse con el paquete SAM2, con los conjuntos de datos que se utilizarán y con la configuración del entorno de cálculo en clúster. En particular, nos centramos en conjuntos de datos que proporcionan trayectorias anotadas de personas en escenarios muy diversos, específicamente los benchmarks MOTChallenge, como MOT17 y MOTS. Seguidamente, exploramos la importancia de cada uno de los parámetros de configuración de SAM2 en un marco basado en cajas delimitadoras. Aunque las cajas son menos flexibles y no nativas de SAM2, permiten una experimentación iterativa rápida, muy útil para entender cómo afectan distintos parámetros al rendimiento del modelo. En este contexto, identificamos que determinar un umbral óptimo para la Supresión de No Máximos (NMS) basada en la Intersección sobre Unión (IoU) es fundamental para cortar las trayectorias que se pierden tras una oclusión. Además, desarrollamos una forma compacta y representativa de interpretar los resultados del modelo, evitando la revisión fotograma a fotograma de las trayectorias generadas. Concluimos este bloque identificando las limitaciones de nuestra metodología, algunas de las cuales derivan de incompatibilidades entre las máscaras de SAM2 y las cajas delimitadoras de referencia. Por último, la última parte del proyecto se dedica al modelo de MOT basado en máscaras con asistencia de detector. En el bloque anterior, las trayectorias se inicializaban con datos de referencia para aislar a SAM2 de errores. Sin embargo, este enfoque no es viable en escenarios reales, donde no se dispone de dichos datos. Por ello, las primeras tareas se centran en la integración del detector You Only Look Once (YOLO). Una vez que el detector se integra con éxito en el flujo de trabajo y recupera niveles de rendimiento comparables a los obtenidos con inicialización basada en datos de referencia, nos enfocamos en implementar estrategias de desambiguación para gestionar las oclusiones. Esto se logra modificando el enfoque de NMS para que considere no solo la IoU entre dos máscaras superpuestas, sino también la Intersección sobre el Área Menor (IoSA). Adicionalmente, incorporamos una nueva métrica de puntuación que evalúa la calidad de las trayectorias en cada fotograma, de manera que las trayectorias con puntuaciones consistentemente bajas se descartan y los errores esporádicos de YOLO no conduzcan a inicializaciones indeseadas. Observamos que nuestro algoritmo final mejora el estado del arte en métricas de consistencia de identidad y se acerca a los mejores resultados en métricas de calidad de máscara. De manera incidental, identificamos que un refinamiento del detector, que no es el objetivo principal del trabajo, probablemente mejoraría el rendimiento del modelo en estas últimas métricas para superar completamente el estado del arte. Para concluir, esta tesis demuestra que aumentar la potente segmentación centrada en máscaras de SAM2 con un marco asistido por detectores y heurísticas específicas para las oclusiones puede mejorar de forma drástica el rendimiento del seguimiento de múltiples objetos, especialmente en lo que respecta a la consistencia de identidad. Al combinar la inicialización con YOLO, la refinación de NMS guiada por IoU/IoSA y la evaluación de trayectorias fotograma a fotograma para eliminar seguimientos no fiables, el enfoque propuesto logra la consistencia de seguimiento del estado del arte en bancos de pruebas de referencia. Estos resultados no solo validan el potencial de los enfoques híbridos de segmentación y detección para el MOT en entornos reales, sino que también abren la puerta a futuras mejoras, como la adaptación de umbrales y el ajuste fino del detector, para llevar el seguimiento centrado en máscaras más allá de los límites actuales.

Document Type

Bachelor thesis

Language

English

Publisher

Universitat Politècnica de Catalunya

Recommended citation

This citation was generated automatically.

Rights

Open Access

This item appears in the following Collection(s)