Τεχνικές Αποδοτικής Εικονικοποίησης Επιταχυντών για Νεφοϋπολογιστικά Περιβάλλοντα

Γεράγγελος, Στέφανος; Gerangelos, Stefanos

dc.contributor.author	Γεράγγελος, Στέφανος
dc.contributor.author	Gerangelos, Stefanos
dc.date.accessioned	2020-07-24T06:22:34Z
dc.date.available	2020-07-24T06:22:34Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/50952
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.18650
dc.rights	Default License
dc.subject	Εικονικοποίηση Επιταχυντών	el
dc.subject	Διαμοιρασμός Επιταχυντών	el
dc.subject	Εικονικές Μηχανές	el
dc.subject	Νεφοϋπολογιστικά Περιβάλλοντα	el
dc.subject	Accelerator Virtualization	en
dc.subject	Accelerator Sharing	en
dc.subject	Virtual Machines	en
dc.subject	Cloud Environments	en
dc.title	Τεχνικές Αποδοτικής Εικονικοποίησης Επιταχυντών για Νεφοϋπολογιστικά Περιβάλλοντα	el
dc.title	Efficient Accelerator Virtualization Techniques for Cloud Environments	en
dc.contributor.department	Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών, Εργαστήριο Υπολογιστικών Συστημάτων	el
heal.type	doctoralThesis
heal.classification	Επιστήμη Υπολογιστών	el
heal.classification	Επιστήμη Μηχανικού Η/Υ	el
heal.classification	Λογισμικό Συστημάτων Υπολογιστών	el
heal.classification	Computer Science	en
heal.classification	Computer Engineering	en
heal.classification	Computer Systems Software	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-07-17
heal.abstract	Καθώς ο ρυθμός με τον οποίο δημιουργούνται δεδομένα στο σύγχρονο κόσμο αυξάνεται συνεχώς, υπάρχει ολοένα και πιο έντονη η ανάγκη για αύξηση της διαθέσιμης υπολογιστικής ισχύος. Παρ' όλα αυτά, η προϋπάρχουσα τάση κλιμάκωσης των πυρήνων στις διάφορες γενιές αρχιτεκτονικών παρουσιάζει ένα εγγενές όριο για το άμεσο μέλλον. Σε αυτό το πλαίσιο, οι επιστήμονες και ερευνητές εκτιμούν ότι ο τρόπος επεξεργασίας των δεδομένων θα προσαρμοστεί σε αυτές τις νέες συνθήκες και τα μελλοντικά κέντρα δεδομένων (data centers) σταδιακά θα μετακινηθούν σε πιο ετερογενή περιβάλλοντα υιοθέτωντας υπολογιστικούς πόρους επιταχυντών. Την ίδια στιγμή, το cloud computing διαδραματίζει εξαιρετικά σημαντικό ρόλο σε πολλά κέντρα δεδομένων προσφέροντας πλεονεκτήματα τόσο για τους τελικούς χρήστες όσο και για τους παρόχους, όπως για παράδειγμα, ευελιξία, ενοποίηση των διαθέσιμων φυσικών κόμβων, μείωση του κόστους και πιο αποτελεσματική χρησιμοποίηση των πόρων. Με την προαναφερθείσα δυναμική που εμφανίζουν οι ετερογενείς αρχιτεκτονικές και πιο συγκεκριμένα οι επιταχυντές, δημιουργείται μία αυξανόμενη ανάγκη για ένταξη αυτών στα υπάρχοντα cloud περιβάλλοντα. Ουσιαστικά, οι υποδομές εικονικοποίησης χρειάζεται να ενσωματώσουν τα συστήματα επιταχυντών λαμβάνοντας υπόψη τα εξειδικευμένα χαρακτηριστικά αυτού του τύπου των συσκεύων. Σε αυτή την εργασία, εξερευνούμε τις συνέπειες της ένταξης των συσκευών επιτάχυνσης στα συστήματα εικονικοποίησης. Αναγνωρίζουμε τις βασικές δυσκολίες και προκλήσεις της εικονικοποίησης επιταχυντών και σκιαγραφούμε τους λόγους για τους οποίους οι παραδοσιακές μέθοδοι εικονικοποίησης Ε/Ε δεν είναι οι πλέον κατάλληλες για αυτές τις εξειδικευμένες συσκευές. Εξερευνούμε τεχνικές εικονικοποίησης με βάση δύο δημοφιλείς οικογένειες επιταχυντών, τις NVIDIA GPUs και τους συνεπεξεργαστές Intel Xeon Phi, ακολουθώντας διαφορετικές προσεγγίσεις με βάση τη φύση κάθε ενός από τους προαναφερθέντες επιταχυντές. Σχετικά με την προσέγγισή μας για εικονικοποίηση GPU, προτείνουμε τη χρησιμοποίηση ενός εργαλείου απομακρυσμένης επιτάχυνσης στο πλαίσιο του ίδιου φυσικού κόμβου συνδυάζοντάς το με ένα αποδοτικό σύστημα για επικοινωνία εντός του ίδιου κόμβου. Αυτό έχει ως αποτέλεσμα σημαντικά καλύτερη επίδοση κατά τη διαδικασία offloading εφαρμογών σε εικονικοποιημένα περιβάλλοντα. Σύμφωνα με τη σχεδίαση του συστήματος επικοινωνίας, το μονοπάτι δεδομένων περιλαμβάνει την εμπλοκή του υπερεπόπτη (hypervisor) ως δικτυακού μέσου, αντί για το προνομιούχο driver domain. Επιπλέον, αξιολογούμε το σύστημα επικοινωνίας κάνοντας τόσο χρήση δικτυακών μικρο-μετροπρογραμμάτων, όσο και ενός κοινού GPU πυρήνα, δείχνοντας ότι η συνολική υποδομή αποτελεί μία βιώσιμη πρόταση για τα λογισμικά επιταχυντών που κυκλοφορούν με κλειστές άδειες. Πιο συγκεκριμένα, τα πειραματικά αποτελέσματα δείχνουν ότι η προσέγγισή μας βελτιώνει τη μεταφορά δεδομένων έως και 6.3 φορές σε σύγκριση με το απομακρυσμένο προκαθορισμένο μονοπάτι, ενώ προσθέτει ένα κόστος 15% κατά την εκτέλεση του GPU υπολογιστικού πυρήνα σε σχέση με την περίπτωση απευθείας ανάθεσης συσκευής. Σύμφωνα με όσα γνωρίζουμε, η προσέγγισή μας για εικονικοποίηση Xeon Phi συνεπεξεργαστών είναι η πρώτη και η μοναδική αυτή τη στιγμή που υποστηρίζει το διαμοιρασμό ενός Xeon Phi επιταχυντή μεταξύ πολλαπλών εικονικών μηχανών που εκτελούνται στον ίδιο φυσικό κόμβο. Ακολουθούμε την τεχνική της παραεικονικοποίησης στοχεύοντας το χαμηλό επίπεδο μεταφοράς της αντίστοιχης στοίβας λογισμικού. Με αυτό τον τρόπο, οι βασικές σχεδιαστικές άρχες της προσέγγισής μας μπορούν να εφαρμοστούν στις μελλοντικές τεχνολογίες επιταχυντών. Η πειραματική αποτίμηση του πρωτοτύπου μας δείχνει ότι μπορεί να επιφέρει καλύτερη χρησιμοποίηση του επιταχυντή όταν αυτός χρησιμοποιείται από πολλαπλές εικονικές μηχανές, αυξάνοντας το συνολικό throughput έως 3.56x σε σχέση με μία host εφαρμογή, η οποία αναπαριστά την περίπτωση της απευθείας ανάθεσης συσκευής.	el
heal.sponsor	As data creation worldwide in today's world keeps growing with remarkable rates, the processing power needs to be increased proportionally. However, the multicore scaling trend presents a limit in the foreseeable future, which is referred in the literature as the dark silicon era. In this context, computer scientists and professionals estimate that the way data are processed will adapt to the new conditions and future data centers will gradually move from the scale-up paradigm to more heterogeneous architectures embracing accelerating resources. At the same time, cloud computing has been established in many data center infrastructures offering benefits both for the end users as well as the service providers, such as flexibility, server consolidation, cost reduction and better resource utilization among others. With the aforementioned potential that heterogeneous computing and accelerators appears to develop, there is a growing need for integration in the current cloud stacks. In essence, virtualization-aware systems need to embrace accelerators by adapting their components into the specialized nature of this kind of hardware. In this thesis, we explore the implications of integrating accelerator devices into the virtualization ecosystem. We identify the key challenges of virtualizing accelerator resources and we outline the reasons that the traditional I/O virtualization methods are not adequate for this kind of specialized devices. We explore virtualization techniques targeting two popular accelerator families, NVIDIA GPUs and Intel Xeon Phi coprocessors, following different approaches based on the nature of each accelerator environment. In our GPU virtualization approach, we propose the use of a remote acceleration framework in a single-node virtualization platform combined with a low overhead intra-node framework which results in efficient application offloading in virtualized environments. The data path in the design of our intra-node framework is realized through the hypervisor as the network medium, instead of the driver domain. Furthermore, we evaluate our prototype using both network microbenchmarks and analyzing a common GPU stencil, showing that it is a viable approach for accelerator software stacks that are released in a closed manner. Specifically, evaluation results show that our approach boosts the transfer throughput by a factor of up to 6.3 compared to the remote default path, while it adds an overhead of 15% in terms of GPU execution compared to direct device assignment configuration. Regarding our Xeon Phi virtualization approach, to the best of our knowledge it is the first and currently the only solution that enables sharing of a Xeon Phi device by multiple virtual machines running on the same physical node. We follow the paravirtualization technique targeting the low-level transport layer of the software stack. In this way, the design principles of our approach can be applied to future accelerator technologies as well. Evaluation shows that our prototype can enable better accelerator utilization when it is used by multiple VMs, increasing up to 3.56x the total throughput versus a single host application, which represents the direct device assignment configuration.	en
heal.advisorName	Κοζύρης, Νεκτάριος
heal.committeeMemberName	Κοζύρης, Νεκτάριος
heal.committeeMemberName	Τσανάκας, Παναγιώτης
heal.committeeMemberName	Παπασπύρου, Νικόλαος
heal.committeeMemberName	Γκούμας, Γεώργιος
heal.committeeMemberName	Σούντρης, Δημήτριος
heal.committeeMemberName	Μπίλας, Άγγελος
heal.committeeMemberName	Αναστασιάδης, Στέργιος
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	180
heal.fullTextAvailability	false