dc.contributor
Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
dc.contributor
Massachusetts Institute of Technology
dc.contributor
Sanchez -, Daniel
dc.contributor.author
Hermida Rivera, Ferran
dc.date.accessioned
2025-11-08T10:15:26Z
dc.date.available
2025-11-08T10:15:26Z
dc.date.issued
2025-05-28
dc.identifier
https://hdl.handle.net/2117/445512
dc.identifier
PRISMA-192220
dc.identifier.uri
https://hdl.handle.net/2117/445512
dc.description.abstract
Les eines modernes de simulació RTL es veuen limitades per la seva incapacitat d’escalar eficientment entre diversos dispositius de còmput, cosa que en redueix l’utilitat per simular grans sistemes integrats en un xip, arquitectures heterogèneas o dissenys a gra n escala. En aquest treball, presentem dues contribucions clau amb l’objectiu de superar aquestes limitacions dins de la plataforma SWIFT. Primer, proposem un nou algorisme d’agregació de tasques que proporciona un control precís sobre el nombre i la mida d’aquestes tasques de simulació, permetent un millor equilibri entre el cost de gestió i el paral·lelisme. Aquest algorisme està dissenyat per minimitzar la longitud del camí crític i està optimitzat específicament per a l’arquitectura de flux de dades per- sonalitzada de SWIFT, en lloc de per a multoprocessadors d’ús general. A més, el fet de desacoblar l’agregació de la partició, elimina restriccions permetent una assignacióòptima de les tasques als dispositius. En segon lloc, presentem una nova estratègia de partició que utilitza partició d’hipergrafs combinada amb la duplicació selectiva de tasques per minimitzar la comunicació entre dispositius i reduir l’expansió del camí crític causada per interconnexions lentes. Aquestes millores conjuntes permeten que el simulador escali eficientment a través de múltiples FPGAs amb un rendiment signi- ficativament superior, desbloquejant un nou potencial per a la simulació RTL ràpida i amb precisió a nivell cicle a gran escala.
dc.description.abstract
Las herramientas modernas de simulación RTL se ven limitadas por su incapaci- dad para escalar eficientemente entre múltiples dispositivos de cómputo, lo que reduce su utilidad para simular grandes sistemas integrados en un chip, arquitecturas het- erogéneas o diseños a gran escala. En este trabajo, presentamos dos contribuciones clave con el objetivo de superar estas limitaciones dentro de la plataforma SWIFT. En primer lugar, proponemos un nuevo algoritmo de agregación de tareas que propor- ciona un control preciso sobre el número y el tamaño de dichas tareas de simulación, permitiendo un mejor equilibrio entre el coste de gestión y el paralelismo. Este algo- ritmo está diseñado para minimizar la longitud del camino crítico y está optimizado específicamente para la arquitectura de flujo de datos personalizada de SWIFT, en lugar de para multiprocesadores de propósito general. Además, al desacoplar la agre- gación de la partición, se eliminan restricciones, permitiendo una asignación óptima de las tareas a los dispositivos. En segundo lugar, presentamos una nueva estrategia de partición que utiliza partición de hipergrafos combinada con la duplicación selectiva de tareas para minimizar la comunicación entre dispositivos y reducir la expansión del camino crítico causada por interconexiones lentas. Estas mejoras conjuntas permiten que el simulador escale eficientemente a través de múltiples FPGAs con un rendimiento significativamente superior, desbloqueando un nuevo potencial para la simulación RTL rápida y con precisión a nivel de ciclo a gran escala.
dc.description.abstract
Modern RTL simulation frameworks are bottlenecked by their inability to scale effi- ciently across multiple compute devices, limiting their utility for simulating large-scale and heterogeneous hardware systems. In this work, we introduce two key contributions aimed at overcoming these limitations within the SWIFT platform. First, we propose a novel coarsening algorithm that provides fine-grained control over the number and size of simulation tasks, enabling a better balance between overhead and parallelism. This algorithm is designed to minimize critical path length and is optimized specifically for SWIFT’s custom dataflow architecture rather than general-purpose multicore CPUs. Furthermore, by decoupling coarsening from partitioning, it removes the constraints imposed by traditional pipelines and enables more optimal task-to-device mappings. Second, we present a new partitioning strategy that leverages hypergraph partitioning combined with selective task duplication to minimize inter-device communication and reduce the critical path expansion caused by slow interconnects. Together, these ad- vances allow the simulator to scale across multiple FPGAs with significantly improved performance, unlocking new potential for fast, cycle-accurate RTL simulation at scale.
dc.description.abstract
Outgoing
dc.format
application/pdf
dc.publisher
Universitat Politècnica de Catalunya
dc.rights
http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights
Restricted access - confidentiality agreement
dc.rights
Attribution-NonCommercial-ShareAlike 4.0 International
dc.subject
Àrees temàtiques de la UPC::Informàtica
dc.subject
Parallel processing (Electronic computers)
dc.subject
Computer simulation
dc.subject
RTL Simulation
dc.subject
FPGA Acceleration
dc.subject
Task Graph Coarsening
dc.subject
Hy- pergraph Partitioning
dc.subject
Multi-device Execution
dc.subject
Critical Path Optimization
dc.subject
Processament en paral·lel (Ordinadors)
dc.subject
Simulació per ordinador
dc.title
Scaling RTL Simulation Platforms