HEAL DSpace

Interference and Resource Aware Predictive Inference Serving on Cloud Infrastructures

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Χρυσομέρης, Παναγιώτης el
dc.contributor.author Chrysomeris, Panagiotis en
dc.date.accessioned 2023-02-06T09:15:36Z
dc.date.available 2023-02-06T09:15:36Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57081
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24779
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Cloud computing en
dc.subject Inference en
dc.subject Scheduling en
dc.subject Interference-aware en
dc.subject Resource management en
dc.subject Machine Learning en
dc.subject Kubernetes en
dc.subject Χρονοδρομολόγηση el
dc.subject Παρεμβολές el
dc.subject Διαχείριση πόρων el
dc.subject Μηχανική Μάθηση el
dc.title Interference and Resource Aware Predictive Inference Serving on Cloud Infrastructures en
heal.type bachelorThesis
heal.classification Computer Engineering en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-11-15
heal.abstract Over the last years, the growth of applications that utilize Artificial Intelligence (AI) is rapidly increasing and is expected to grow further in the future. To satisfy this ever-increasing demand for Machine Learning (ML) driven applications, Cloud providers offer inference serving systems as online services (ML-as-a-Service), which end-users can query to take advantage of "out-of-the-box" ML solutions without having to install software or provision their own servers. Typically, ML inference serving requests are accompanied with performance requirements, also known as Quality-of-Service (QoS) constraints, Service-Level-Objectives (SLOs) or Service-Level Agreements (SLAs), which correspond to latency constraints set by the respective application. To this end, a key challenge for Cloud providers is to guarantee such requirements while also maximizing the resource efficiency of their infrastructures, thus leading to reduced operational costs. However, satisfying such contradictory optimization goals becomes really challenging due to i) the high diversity in terms of ML inference serving solutions available and ii) the performance variability due to the unpredictability of user requests during the day. On top of that, Cloud providers tend to co-locate applications in shared physical servers to maximize the resource utilization of their infrastructure, which, however, imposes performance degradation due to resource interference effects. In this diploma thesis, we propose an interference and resource aware, predictive scheduling framework for ML inference engines, that is capable of efficiently utilizing CPU resources to satisfy QoS constraints. Our framework considers the effect of resource interference in the Cloud by leveraging low-level system metrics to predict the Queries per Second (QPS) that an inference engine will achieve, based on the current load and resource utilization, as well as to select the appropriate parallelism level for deployment. We also introduce a model-less approach to the scheduling framework, which navigates the trade-off space of diverse ML model-variants for a specific inference task, on behalf of developers, to meet the application-specific objective with minimum resource utilization. We integrate our solution with Kubernetes, one of the most widely used cloud orchestration frameworks nowadays. We evaluate our scheduling framework using a set of inference engines from the MLPerf Inference Benchmark Suite. Experimental results show that our scheduling framework utilizes a moderate amount of CPU resources, dependent on the target QoS and resource load, to violate QoS constraints, on average, 1.8x less often, compared to the max CPU utilization inference serving system, and 3.1x less often, compared to the min CPU utilization inference serving system, and with a performance variability that is better concentrated around the target QoS, for a variety of interference scenarios and different QoS constraints. Moreover, as the QoS constraints change, the model-less scheduling framework retains a similar, on average, overall performance and resource utilization, to the best performing, most efficient inference engine each time, resulting, on average, in 1.5x less violations of the QoS constraints and 1.4x less CPU utilization, compared to the model-specific scheduling framework. en
heal.abstract Τα τελευταία χρόνια, η ανάπτυξη των εφαρμογών που χρησιμοποιούν Τεχνητή Νοημοσύνη (AI) σημειώνει ραγδαία αύξηση. Για να ικανοποιηθεί η αυξανόμενη ζήτηση για εφαρμογές μηχανικής μάθησης (ML), οι πάροχοι υπηρεσιών Cloud προσφέρουν συστήματα παροχής ML συμπερασμάτων (inference) ως διαδικτυακές υπηρεσίες (ML-as-a-Service), στις οποίες οι τελικοί χρήστες μπορούν να υποβάλουν αιτήματα για να επωφεληθούν από έτοιμες λύσεις ML, χωρίς να χρειάζεται να εγκαταστήσουν λογισμικό ή να παρέχουν τους δικούς τους διακομιστές. Συνήθως, τα αιτήματα παροχής ML inference συνοδεύονται από απαιτήσεις απόδοσης, γνωστές και ως περιορισμοί ποιότητας υπηρεσίας (QoS), στόχοι (SLOs) ή συμφωνίες (SLAs) επιπέδου υπηρεσίας, που ορίζονται από την εκάστοτε εφαρμογή. Συνεπώς, μια βασική πρόκληση για τους παρόχους υπηρεσιών Cloud είναι να εγγυηθούν τέτοιες απαιτήσεις μεγιστοποιώντας ταυτόχρονα την αποδοτικότητα της χρήσης των πόρων των υποδομών τους, καταλήγοντας σε μειωμένο λειτουργικό κόστος. Ωστόσο, η ικανοποίηση τέτοιων αντιφατικών στόχων βελτιστοποίησης καθίσταται ιδιαίτερα δυσχερής λόγω i) της υψηλής ποικιλομορφίας των διαθέσιμων λύσεων παροχής ML inference και ii) της μεταβλητότητας της απόδοσης λόγω της μη προβλεψιμότητας των αιτημάτων των χρηστών μέσα στη μέρα. Επιπλέον, οι πάροχοι υπηρεσιών Cloud συχνά τοποθετούν τις εφαρμογές σε κοντινούς κοινόχρηστους φυσικούς διακομιστές για να μεγιστοποιήσουν τη χρήση πόρων της υποδομής τους, κάτι που, ωστόσο, οδηγεί σε υποβάθμιση της απόδοσης λόγω των επιπτώσεων παρεμβολής στους πόρους. Στην παρούσα εργασία, προτείνουμε ένα πλαίσιο προγνωστικής χρονοδρομολόγησης για μηχανές ML inference με επίγνωση των παρεμβολών και των πόρων, το οποίο είναι ικανό να χρησιμοποιεί αποτελεσματικά τους πόρους της ΚΜΕ (CPU) για την ικανοποίηση περιορισμών QoS. Το πλαίσιο μας λαμβάνει υπ’ όψη τον τρέχοντα φόρτο εργασίας και τη χρήση πόρων του Cloud αξιοποιώντας μετρήσεις συστήματος χαμηλού επιπέδου για να προβλέψει τα αιτήματα ανά δευτερόλεπτο (QPS) που θα επιτύχει μια μηχανή ML inference, καθώς και για να επιλέξει το κατάλληλο επίπεδο παραλληλισμού για την εκτέλεση. Παρουσιάζουμε, επίσης, μια προσέγγιση χωρίς μοντέλο για το πλαίσιο χρονοδρομολόγησης, η οποία πλοηγείται στον χώρο συμβιβασμού μεταξύ διαφορετικών παραλλαγών ML μοντέλων για μια ML inference εργασία, εκ μέρους των προγραμματιστών, για την επίτευξη του στόχου της εκάστοτε εφαρμογής με ελάχιστη χρήση πόρων. Ενσωματώνουμε τη λύση μας με τον Κυβερνήτη (Kubernetes), έναν από τους πιο ευρέως χρησιμοποιούμενους ενορχηστρωτές Cloud υπολογιστικών συστημάτων. Αξιολογούμε το πλαίσιο χρονοδρομολόγησης χρησιμοποιώντας ένα σύνολο ML inference μηχανών από τη σουίτα MLPerf Inference Benchmark. Τα πειραματικά αποτελέσματα δείχνουν ότι το πλαίσιο μας κάνει μέτρια χρήση των πόρων CPU, ανάλογα με το στόχο QoS και το φόρτο εργασίας στους πόρους, για να παραβιάσει τους περιορισμούς QoS, κατά μέσο όρο, 1.8x/3.1x λιγότερο συχνά, σε σύγκριση με το σύστημα παροχής ML inference μέγιστης/ελάχιστης χρήσης CPU αντίστοιχα, και με μεταβλητότητα απόδοσης που συγκεντρώνεται καλύτερα γύρω από το στόχο QoS, σε μια ποικιλία σεναρίων παρεμβολών και με διαφορετικούς περιορισμούς QoS. Επιπλέον, το πλαίσιο χωρίς μοντέλο σημειώνει, κατά μέσο όρο, 1.5x λιγότερες παραβιάσεις στους περιορισμούς QoS και 1.4x μικρότερη χρήση της CPU, σε σύγκριση με το πλαίσιο χρονοδρομολόγησης με συγκεκριμένο μοντέλο. el
heal.advisorName Σούντρης, Δημήτριος el
heal.committeeMemberName Σούντρης, Δημήτριος el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Ξύδης, Σωτήριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Μικροϋπολογιστών και Ψηφιακών Συστημάτων VLSI el
heal.academicPublisherID ntua
heal.numberOfPages 134 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα