Scaling RTL Simulation Platforms

Hermida Rivera, Ferran

Scaling RTL Simulation Platforms

dc.contributor

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

dc.contributor

Massachusetts Institute of Technology

dc.contributor

Sanchez -, Daniel

dc.contributor.author

Hermida Rivera, Ferran

dc.date.accessioned

2025-11-08T10:15:26Z

dc.date.available

2025-11-08T10:15:26Z

dc.date.issued

2025-05-28

dc.identifier

https://hdl.handle.net/2117/445512

dc.identifier

PRISMA-192220

dc.identifier.uri

https://hdl.handle.net/2117/445512

dc.description.abstract

Les eines modernes de simulació RTL es veuen limitades per la seva incapacitat d’escalar eficientment entre diversos dispositius de còmput, cosa que en redueix l’utilitat per simular grans sistemes integrats en un xip, arquitectures heterogèneas o dissenys a gra n escala. En aquest treball, presentem dues contribucions clau amb l’objectiu de superar aquestes limitacions dins de la plataforma SWIFT. Primer, proposem un nou algorisme d’agregació de tasques que proporciona un control precís sobre el nombre i la mida d’aquestes tasques de simulació, permetent un millor equilibri entre el cost de gestió i el paral·lelisme. Aquest algorisme està dissenyat per minimitzar la longitud del camí crític i està optimitzat específicament per a l’arquitectura de flux de dades per- sonalitzada de SWIFT, en lloc de per a multoprocessadors d’ús general. A més, el fet de desacoblar l’agregació de la partició, elimina restriccions permetent una assignacióòptima de les tasques als dispositius. En segon lloc, presentem una nova estratègia de partició que utilitza partició d’hipergrafs combinada amb la duplicació selectiva de tasques per minimitzar la comunicació entre dispositius i reduir l’expansió del camí crític causada per interconnexions lentes. Aquestes millores conjuntes permeten que el simulador escali eficientment a través de múltiples FPGAs amb un rendiment signi- ficativament superior, desbloquejant un nou potencial per a la simulació RTL ràpida i amb precisió a nivell cicle a gran escala.

dc.description.abstract

Las herramientas modernas de simulación RTL se ven limitadas por su incapaci- dad para escalar eficientemente entre múltiples dispositivos de cómputo, lo que reduce su utilidad para simular grandes sistemas integrados en un chip, arquitecturas het- erogéneas o diseños a gran escala. En este trabajo, presentamos dos contribuciones clave con el objetivo de superar estas limitaciones dentro de la plataforma SWIFT. En primer lugar, proponemos un nuevo algoritmo de agregación de tareas que propor- ciona un control preciso sobre el número y el tamaño de dichas tareas de simulación, permitiendo un mejor equilibrio entre el coste de gestión y el paralelismo. Este algo- ritmo está diseñado para minimizar la longitud del camino crítico y está optimizado específicamente para la arquitectura de flujo de datos personalizada de SWIFT, en lugar de para multiprocesadores de propósito general. Además, al desacoplar la agre- gación de la partición, se eliminan restricciones, permitiendo una asignación óptima de las tareas a los dispositivos. En segundo lugar, presentamos una nueva estrategia de partición que utiliza partición de hipergrafos combinada con la duplicación selectiva de tareas para minimizar la comunicación entre dispositivos y reducir la expansión del camino crítico causada por interconexiones lentas. Estas mejoras conjuntas permiten que el simulador escale eficientemente a través de múltiples FPGAs con un rendimiento significativamente superior, desbloqueando un nuevo potencial para la simulación RTL rápida y con precisión a nivel de ciclo a gran escala.

dc.description.abstract

Modern RTL simulation frameworks are bottlenecked by their inability to scale effi- ciently across multiple compute devices, limiting their utility for simulating large-scale and heterogeneous hardware systems. In this work, we introduce two key contributions aimed at overcoming these limitations within the SWIFT platform. First, we propose a novel coarsening algorithm that provides fine-grained control over the number and size of simulation tasks, enabling a better balance between overhead and parallelism. This algorithm is designed to minimize critical path length and is optimized specifically for SWIFT’s custom dataflow architecture rather than general-purpose multicore CPUs. Furthermore, by decoupling coarsening from partitioning, it removes the constraints imposed by traditional pipelines and enables more optimal task-to-device mappings. Second, we present a new partitioning strategy that leverages hypergraph partitioning combined with selective task duplication to minimize inter-device communication and reduce the critical path expansion caused by slow interconnects. Together, these ad- vances allow the simulator to scale across multiple FPGAs with significantly improved performance, unlocking new potential for fast, cycle-accurate RTL simulation at scale.

dc.description.abstract

Outgoing

dc.format

application/pdf

dc.language

eng

dc.publisher

Universitat Politècnica de Catalunya

dc.rights

http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.rights

Restricted access - confidentiality agreement

dc.rights

Attribution-NonCommercial-ShareAlike 4.0 International

dc.subject

Àrees temàtiques de la UPC::Informàtica

dc.subject

Parallel processing (Electronic computers)

dc.subject

Computer simulation

dc.subject

Algorithms

dc.subject

RTL Simulation

dc.subject

FPGA Acceleration

dc.subject

Task Graph Coarsening

dc.subject

Hy- pergraph Partitioning

dc.subject

Multi-device Execution

dc.subject

Critical Path Optimization

dc.subject

Verilator

dc.subject

Processament en paral·lel (Ordinadors)

dc.subject

Simulació per ordinador

dc.subject

Algorismes

dc.title

Scaling RTL Simulation Platforms

dc.type

Bachelor thesis

Ficheros en el ítem

Ficheros	Tamaño	Formato	Ver
No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Treballs acadèmics [82502]