HEAL DSpace

Microarchitectural extension of CGRA accelerator for efficient LLM code mapping

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Kefallinos, Dionysios en
dc.contributor.author Κεφαλληνός, Διονύσιος el
dc.date.accessioned 2025-11-13T06:45:45Z
dc.date.available 2025-11-13T06:45:45Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62853
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30549
dc.rights Default License
dc.subject Επαναπρογραμματίσιμες Αρχιτεκτονικές el
dc.subject Μεγάλα Γλωσσικά Μοντέλα el
dc.subject Υπολογισμοί Κινητής Υποδιαστολής el
dc.subject Εξερεύνηση Αρχιτεκτονικών el
dc.subject Μικροαρχιτεκτονική Επέκταση el
dc.subject Coarse-Grained Reconfigurable Architecture en
dc.subject Large Language Models en
dc.subject Floating Point Operations en
dc.subject Architectural DSE en
dc.subject Microarchitectural Expansion en
dc.title Microarchitectural extension of CGRA accelerator for efficient LLM code mapping en
dc.title Μικροαρχιτεκτονική επέκταση επιταχυντή τύπου CGRA για αποδοτική απεικόνιση εφαρμογών τύπου LLM el
heal.type bachelorThesis
heal.classification Computer Engineering en
heal.classification Hardware Engineering en
heal.classification Embedded Systems en
heal.classification Artificial Intelligence en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-03-14
heal.abstract In recent years, the computational demands of Large Language Models (LLMs) have been steadily increasing, driven by their expanding range of applications and the scaling of their parameter sizes. A key emerging trend is the shift of inference workloads closer to the user, leveraging edge devices and specialized agents. In this work, we explore the R-Blocks CGRA accelerator as a potential platform for running such workloads efficiently. Our contributions are twofold: first, we extend the microarchitecture and compilation toolchain (OpenASIP) of R-Blocks to support floating-point arithmetic, necessary for efficient LLM inference; second, we implement and benchmark LLM workloads on the reconfigurable hardware, investigating various architectural choices and parallelization strategies. Finally, we evaluate our design in a 22nm FD-SOI ASIC implementation, providing insights into its performance, energy efficiency, and area footprint, and assessing the viability of our approach for edge-based LLM inference. en
heal.abstract Τα τελευταία χρόνια οι υπολογιστικές απαιτήσεις των Μεγάλων Γλωσσικών Μοντέλων (LLMs) ολοένα και αυξάνονται, καθώς το πεδίο εφαρμογών τους διευρύνεται και το πλήθος των παραμέτρων τους συνεχώς κλιμακώνεται. Η νεότερη ερευνητική τάση είναι η μετατόπιση του υπολογιστικού φόρτου για το inference όλο και πιο κοντά στον χρήστη, με τις edge συσκευές (ή agents). Στην δουλειά αυτή εξετάζουμε έναν συγκεκριμένο επιταχυντή τύπου CGRA, τον R-Blocks, ως πιθανή πλατφόρμα εκτέλεσης τέτοιων εφαρμογών. Αφενός επεκτείνουμε την μικροαρχιτεκτονική και τα εργαλεία του περιβάλλοντος μεταγλώττισης (OpenASIP) του R-Blocks για την υποστήριξη αριθμητικής κινητής υποδιαστολής, και αφετέρου απεικονίζουμε τα πρώτα πειραματικά benchmarks τύπου LLM στο επαναπρογραμματίσιμο υλικό, εξερευνώντας διαφορετικές αρχιτεκτονικές και παραμέτρους παραλληλοποίησης. Η τελική μας αξιολόγηση γίνεται σε ASIC τεχνολογία 22nm FD-SOI, και εξάγονται συμπεράσματα για την βιωσιμότητα της προσέγγισης μας ως προς την απόδοση, την ενέργεια και το εμβαδόν του κυκλώματος. el
heal.advisorName Ξύδης, Σωτήριος el
heal.committeeMemberName Ξύδης, Σωτήριος el
heal.committeeMemberName Σούντρης, Δημήτριος el
heal.committeeMemberName Ζερβάκης, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Μικροϋπολογιστών και Ψηφιακών Συστημάτων VLSI el
heal.academicPublisherID ntua
heal.numberOfPages 103 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής