Microarchitectural extension of CGRA accelerator
for efficient LLM code mapping

Kefallinos, Dionysios; Κεφαλληνός, Διονύσιος

dc.contributor.author	Kefallinos, Dionysios	en
dc.contributor.author	Κεφαλληνός, Διονύσιος	el
dc.date.accessioned	2025-11-13T06:45:45Z
dc.date.available	2025-11-13T06:45:45Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/62853
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.30549
dc.rights	Default License
dc.subject	Επαναπρογραμματίσιμες Αρχιτεκτονικές	el
dc.subject	Μεγάλα Γλωσσικά Μοντέλα	el
dc.subject	Υπολογισμοί Κινητής Υποδιαστολής	el
dc.subject	Εξερεύνηση Αρχιτεκτονικών	el
dc.subject	Μικροαρχιτεκτονική Επέκταση	el
dc.subject	Coarse-Grained Reconfigurable Architecture	en
dc.subject	Large Language Models	en
dc.subject	Floating Point Operations	en
dc.subject	Architectural DSE	en
dc.subject	Microarchitectural Expansion	en
dc.title	Microarchitectural extension of CGRA accelerator for efficient LLM code mapping	en
dc.title	Μικροαρχιτεκτονική επέκταση επιταχυντή τύπου CGRA για αποδοτική απεικόνιση εφαρμογών τύπου LLM	el
heal.type	bachelorThesis
heal.classification	Computer Engineering	en
heal.classification	Hardware Engineering	en
heal.classification	Embedded Systems	en
heal.classification	Artificial Intelligence	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-03-14
heal.abstract	In recent years, the computational demands of Large Language Models (LLMs) have been steadily increasing, driven by their expanding range of applications and the scaling of their parameter sizes. A key emerging trend is the shift of inference workloads closer to the user, leveraging edge devices and specialized agents. In this work, we explore the R-Blocks CGRA accelerator as a potential platform for running such workloads efficiently. Our contributions are twofold: first, we extend the microarchitecture and compilation toolchain (OpenASIP) of R-Blocks to support floating-point arithmetic, necessary for efficient LLM inference; second, we implement and benchmark LLM workloads on the reconfigurable hardware, investigating various architectural choices and parallelization strategies. Finally, we evaluate our design in a 22nm FD-SOI ASIC implementation, providing insights into its performance, energy efficiency, and area footprint, and assessing the viability of our approach for edge-based LLM inference.	en
heal.abstract	Τα τελευταία χρόνια οι υπολογιστικές απαιτήσεις των Μεγάλων Γλωσσικών Μοντέλων (LLMs) ολοένα και αυξάνονται, καθώς το πεδίο εφαρμογών τους διευρύνεται και το πλήθος των παραμέτρων τους συνεχώς κλιμακώνεται. Η νεότερη ερευνητική τάση είναι η μετατόπιση του υπολογιστικού φόρτου για το inference όλο και πιο κοντά στον χρήστη, με τις edge συσκευές (ή agents). Στην δουλειά αυτή εξετάζουμε έναν συγκεκριμένο επιταχυντή τύπου CGRA, τον R-Blocks, ως πιθανή πλατφόρμα εκτέλεσης τέτοιων εφαρμογών. Αφενός επεκτείνουμε την μικροαρχιτεκτονική και τα εργαλεία του περιβάλλοντος μεταγλώττισης (OpenASIP) του R-Blocks για την υποστήριξη αριθμητικής κινητής υποδιαστολής, και αφετέρου απεικονίζουμε τα πρώτα πειραματικά benchmarks τύπου LLM στο επαναπρογραμματίσιμο υλικό, εξερευνώντας διαφορετικές αρχιτεκτονικές και παραμέτρους παραλληλοποίησης. Η τελική μας αξιολόγηση γίνεται σε ASIC τεχνολογία 22nm FD-SOI, και εξάγονται συμπεράσματα για την βιωσιμότητα της προσέγγισης μας ως προς την απόδοση, την ενέργεια και το εμβαδόν του κυκλώματος.	el
heal.advisorName	Ξύδης, Σωτήριος	el
heal.committeeMemberName	Ξύδης, Σωτήριος	el
heal.committeeMemberName	Σούντρης, Δημήτριος	el
heal.committeeMemberName	Ζερβάκης, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Μικροϋπολογιστών και Ψηφιακών Συστημάτων VLSI	el
heal.academicPublisherID	ntua
heal.numberOfPages	103 σ.	el
heal.fullTextAvailability	false