HEAL DSpace

From Circuits to SoC Processors: Arithmetic Approximation Techniques & Embedded Computing Methodologies for DSP Acceleration

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Λέων, Βασίλειος el
dc.contributor.author Leon, Vasileios en
dc.date.accessioned 2023-02-02T08:32:53Z
dc.date.available 2023-02-02T08:32:53Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57040
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24738
dc.rights Default License
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Approximate Computing en
dc.subject Computer Arithmetic en
dc.subject Hardware Accelerators en
dc.subject Heterogeneous Computing en
dc.subject Embedded Systems en
dc.subject Προσεγγιστικός Υπολογισμός el
dc.subject Αριθμητική Υπολογιστών el
dc.subject Επιταχυντές Υλικού el
dc.subject Ετερογενής Υπολογισμός el
dc.subject Ενσωματωμένα Συστήματα el
dc.title From Circuits to SoC Processors: Arithmetic Approximation Techniques & Embedded Computing Methodologies for DSP Acceleration en
heal.type doctoralThesis
heal.classification Computer Engineering en
heal.classification Computer Hardware en
heal.classification Digital Signal Processing en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-10-10
heal.abstract The recent end of Dennard's Scaling and the declining Moore's Law have signified a new era for the computing systems. Power efficiency has now become a critical factor for both cloud and edge computing. Concurrently, the rapid growth of compute-intensive applications from the Digital Signal Processing (DSP) and Artificial Intelligence (AI) domains challenges the resources of computing systems. As a result, the computing industry is forced to find alternative design approaches and computing platforms to sustain increased power efficiency, while providing sufficient performance. Among the examined solutions, Approximate Computing, Hardware Acceleration, and Heterogeneous Computing have gained great momentum. In this Dissertation, we introduce design solutions and methodologies, built on top of the preceding computing paradigms, for the development of energy-efficient DSP and AI accelerators. In particular, we adopt the promising paradigm of Approximate Computing and apply new approximation techniques in the design of arithmetic circuits. Based on our methodology, these arithmetic approximation techniques are then combined with hardware design techniques to implement approximate ASIC- and FPGA-based DSP and AI accelerators. Moreover, we propose methodologies for the efficient mapping of DSP/AI kernels on distinctive embedded devices, such as the new space-grade FPGAs and the heterogeneous VPUs. On the one hand, we cope with the decreased flexibility of the space-grade technology and the technical challenges that arise in new FPGA tools and devices. On the other hand, we unlock the full potential of heterogeneity by surpassing the increased hardware complexity and exploiting all the diverse processors and memories. In more detail, the proposed arithmetic approximation techniques involve bit-level optimizations, inexact operand encodings, and skipping of computations, while they are applied in both fixed- and floating-point arithmetic. To increase the design space and extract the most efficient solutions, we also conduct an extensive exploration on combinations among the approximation techniques. Moreover, we propose a low-overhead scheme for seamlessly adjusting the approximation degree of our circuits at runtime. In comparison with state-of-the-art designs, the proposed arithmetic circuits feature a very large approximation space, i.e., a wide range of approximation configurations, which enable to maximize the resource gains for a given error constraint. Our techniques induce a mean relative error of up to ~2%, i.e., typical error values for approximate circuits. The most prominent approximate circuits of the Dissertation form a high-resolution Pareto front in a comparative evaluation involving state-of-the-art designs of the literature, and they deliver up to 63% better energy consumption. Finally, our runtime-configurable circuits exhibit a small area overhead of ~3% compared to the accurate design, and they provide ~1.5× less energy gains than their respective design-time counterparts with fixed approximation. Nevertheless, they can dynamically change the approximation degree, namely, the accuracy of the calculations, while they still attain remarkable energy gains versus the accurate circuit and state-of-the-art approximate circuits. At the accelerator level, we develop a plethora of approximate kernels for 1D/2D signal processing and Convolutional Neural Networks (CNNs). The experimental results show that we achieve small relative errors for classic DSP calculations and 0%-5% accuracy loss in CNNs for various arithmetic formats, while providing up to 70% area and energy savings. Regarding the DSP acceleration on new space-grade FPGAs, we apply our methodology to efficiently map computer vision algorithms onto the radiation-hardened NanoXplore's FPGAs. In the end, we achieve balanced resource utilization, which is comparable to that of well-established FPGA vendors. Furthermore, the throughput is sufficient (e.g., up to 10 FPS for feature detection on MPixel images), considering the performance requirements of vision-based space applications. In terms of Heterogeneous Computing, we accelerate custom DSP kernels, a sophisticated computer vision pipeline, and a demanding CNN with ResNet-50 backbone on Intel’s Myriad VPUs. The proposed methodology and embedded design techniques provide speedups up to 20× for classic DSP on Myriad 2, while the power lies around 1W. The CNN is accelerated on Myriad X with 2W, achieving ~8.5× and ~1.7× better performance-per-Watt than the ARM CPU and the Jetson Nano GPU, respectively. en
heal.abstract Το πρόσφατο τέλος της Κλιμάκωσης του Dennard και η φθίνουσα πορεία του Νόμου του Moore έχουν σηματοδοτήσει μια νέα εποχή για τα υπολογιστικά συστήματα. Η κατανάλωση ισχύος αποτελεί πλέον έναν κρίσιμο παράγοντα, τόσο για το υπολογιστικό νέφος όσο και για υπολογισμούς στην άκρη του δικτύου. Ταυτόχρονα, η ταχεία ανάπτυξη απαιτητικών εφαρμογών από τους τομείς της Ψηφιακής Επεξεργασίας Σήματος (DSP) και της Τεχνητής Νοημοσύνης (AI) δημιουργεί προκλήσεις στους πόρους των υπολογιστικών συστημάτων. Ως αποτέλεσμα, η βιομηχανία των υπολογιστών υιοθετεί εναλλακτικές μεθόδους σχεδίασης κυκλωμάτων και συστημάτων, ώστε να διατηρήσει χαμηλή κατανάλωση ισχύος, παρέχοντας όμως και επαρκή ταχύτητα. Ανάμεσα στις λύσεις που εξετάζονται, ο Προσεγγιστικός Υπολογισμός εκμεταλλεύεται την εγγενή ανθεκτικότητα σε σφάλματα των DSP/AI εφαρμογών ώστε να προσφέρει κέρδη σε πόρους μειώνοντας την ποιότητα των αποτελεσμάτων. Η Επιτάχυνση Υλικού αναφέρεται στην εκτέλεση απαιτητικών υπολογιστικών εργασιών σε εξειδικευμένο υλικό, όπως τα Ολοκληρωμένα Κυκλώματα Ειδικής Εφαρμογής (ASICs) και οι Συστοιχίες Επιτόπια Προγραμματιζόμενων Πυλών (FPGAs). Τέλος, ο Ετερογενής Υπολογισμός αναφέρεται σε ευέλικτες αρχιτεκτονικές επεξεργασίας με πολλαπλούς τύπους επεξεργαστή και μνήμης, όπως οι Μονάδες Επεξεργασίας ΄Ορασης (VPUs). Στην παρούσα Διατριβή, εισάγουμε σχεδιαστικές λύσεις και μεθοδολογίες βασισμένες στα προαναφερθέντα πρότυπα σχεδίασης, με στόχο την ανάπτυξη ενεργειακά αποδοτικών επιταχυντών υλικού. Σχετικά με τον Προσεγγιστικό Υπολογισμό, εφαρμόζουμε νέες τεχνικές προσέγγισης στη σχεδίαση αριθμητικών κυκλωμάτων. Οι τεχνικές αυτές συνδυάζονται με βάση τη μεθοδολογία μας με κλασσικές τεχνικές σχεδίασης, ώστε να υλοποιήσουμε προσεγγιστικούς DSP και AI επιταχυντές σε ASIC και FPGA. Επιπλέον, προτείνουμε μεθοδολογίες για την αποτελεσματική αποτύπωση DSP/AI πυρήνων πάνω σε ιδιόμορφες ενσωματωμένες συσκευές, όπως τα νέα FPGAs διαστημικού βαθμού και οι ετερογενείς VPUs. ΄Οσον αφορά τα FPGAs, αντιμετωπίζουμε τις τεχνικές προκλήσεις που προκύπτουν κατά τη χρήση νέων εργαλείων, ενώ για τις VPUs, ξεκλειδώνουμε όλες τις δυνατότητες της ετερογένειας, ξεπερνώντας την αυξημένη πολυπλοκότητα υλικού και αξιοποιώντας όλους τους διαφορετικούς πόρους. Οι προτεινόμενες τεχνικές αριθμητικής προσέγγισης περιλαμβάνουν βελτιστοποιήσεις σε επίπεδο δυαδικού ψηφίου, μη ακριβείς κωδικοποιήσεις τελεστών, και παράλειψη υπολογισμών, ενώ εφαρμόζονται σε αριθμητική τόσο σταθερής όσο και κινητής υποδιαστολής. Για να αυξηθεί ο χώρος σχεδίασης και να εξάγουμε τις πιο αποτελεσματικές xv Greek Abstract λύσεις, πραγματοποιούμε επίσης μια εκτενή εξερεύνηση πάνω στους συνδυασμούς των τεχνικών. Επιπλέον, προτείνουμε ένα σχήμα χαμηλής επιβάρυνσης για την απρόσκοπτη ρύθμιση του βαθμού προσέγγισης των κυκλωμάτων κατά το χρόνο εκτέλεσης. Σε σύγκριση με σημαντικά κυκλώματα της βιβλιογραφίας, οι προτεινόμενες λύσεις διαθέτουν πολύ μεγαλύτερο χώρο προσέγγισης (ευρύτερο φάσμα προσεγγίσεων), επιτρέποντας τη μεγιστοποίηση των κερδών σε πόρους για έναν δεδομένο περιορισμό σφάλματος. Οι τεχνικές μας προκαλούν ένα μέσο σχετικό σφάλμα έως και ∼2%, δηλαδή τυπικές τιμές σφάλματος προσεγγιστικών κυκλωμάτων. Τα πιο εξέχοντα προσεγγιστικά κυκλώματα της Διατριβής σχηματίζουν ένα σύνορο Pareto υψηλής ανάλυσης στη συγκριτική αξιολόγηση με σημαντικές εργασίες της βιβλιογραφίας, προσφέροντας έως και 63% καλύτερη κατανάλωση ενέργειας. Τέλος, τα κυκλώματα που μπορούν να ρυθμίσουν δυναμικά την προσέγγιση, έχουν αυξημένη επιφάνεια κατά ∼3% σε σύγκριση με το ακριβές κύκλωμα, και παρέχουν ∼1.5× λιγότερα κέρδη ενέργειας από τα αντίστοιχα κυκλώματα με σταθερή προσέγγιση. ΄Ομως, έχουν τη δυνατότητα να αλλάζουν την ακρίβεια των υπολογισμών, ενώ εξακολουθούν να προσφέρουν αξιοσημείωτα ενεργειακά κέρδη έναντι του ακριβούς κυκλώματος και κυκλωμάτων της βιβλιογραφίας. Σε επίπεδο επιταχυντή, αναπτύσσουμε μια πληθώρα από προσεγγιστικούς πυρήνες για επεξεργασία σημάτων/εικόνων και Συνελικτικά Νευρωνικά Δίκτυα (CNNs). Με βάση την πειραματική ανάλυση, τα σφάλματα είναι μικρά σε κλασικούς DSP υπολογισμούς και η απώλεια ακρίβειας κυμαίνεται ως 5% στα νευρωνικά δίκτυα, ενώ επιτυγχάνεται έως και 70% εξοικονόμηση επιφάνειας και ενέργειας. Σχετικά με τα νέα FPGAs διαστημικού βαθμού, εφαρμόζουμε τη μεθοδολογία μας για την αποτελεσματική απεικόνιση αλγορίθμων υπολογιστικής όρασης στα ανθεκτικά-σεακτινοβολία FPGAs της NanoXplore. Στο τέλος, επιτυγχάνουμε ισορροπημένη χρήση πόρων, η οποία είναι συγκρίσιμη με αυτή των καθιερωμένων προμηθευτών FPGAs. Επιπλέον, η ταχύτητα είναι επαρκής (π.χ., έως και 10 FPS για την ανίχνευση χαρακτηριστικών σε MPixel εικόνες), λαμβάνοντας υπόψη τις απαιτήσεις απόδοσης των διαστημικών εφαρμογών. Σχετικά με τον Ετερογενή Υπολογισμό, επιταχύνουμε DSP πυρήνες, μια ακολουθία αλγορίθμων υπολογιστικής όρασης, και ένα απαιτητικό CNN στις Myriad VPUs της Intel. Οι προτεινόμενες μεθοδολογίες και τεχνικές ενσωματωμένης σχεδίασης παρέχουν επιτάχυνση έως και 20× σε κλασικούς DSP υπολογισμούς στη Myriad 2 με κατανάλωση ισχύος 1W. Το CNN επιταχύνεται στη Myriad X με 2W, προσφέροντας ∼8.5× και ∼1.7× καλύτερη απόδοση-ανά-Watt από τον επεξεργαστή γενικού-σκοπού ARM και τον επεξεργαστή γραφικών Jetson Nano, αντίστοιχα. Λέξεις Κλειδιά: Προσεγγιστικός Υπολογισμός, Τεχνικές Προσέγγισης, Αριθμητικά Κυκλώματα, Αριθμητική Υπολογιστών, Σχεδίαση Υλικού, Επιταχυντές Υλικού, Ετερογενής Υπολογισμός, Ενσωματωμένα Συστήματα, Τεχνολογία Διαστήματος, Ψηφιακή Επεξεργασία Σήματος, Υπολογιστική ΄Οραση, Συνελικτικά Νευρωνικά Δίκτυα. el
heal.advisorName Πεκμετζή, Κιαμάλ el
heal.advisorName Pekmestzi, Kiamal
heal.committeeMemberName Pekmestzi, Kiamal
heal.committeeMemberName Soudris, Dimitrios
heal.committeeMemberName Goumas, Georgios
heal.committeeMemberName Reisis, Dionysios
heal.committeeMemberName Dollas, Apostolos
heal.committeeMemberName Gizopoulos, Dimitris
heal.committeeMemberName Paschalis, Antonis
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Μικροϋπολογιστών και Ψηφιακών Συστημάτων VLSI el
heal.academicPublisherID ntua
heal.numberOfPages 372 σ. el
heal.fullTextAvailability false
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Default License Except where otherwise noted, this item's license is described as Default License