HEAL DSpace

Σχεδίαση και υλοποίηση μηχανισμού διαχείρισης δεδομένων για ροές εργασίας μηχανικής μάθησης στον κυβερνήτη

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κατσακιώρης, Ηλίας el
dc.contributor.author Katsakioris, Ilias en
dc.date.accessioned 2020-03-30T09:49:33Z
dc.date.available 2020-03-30T09:49:33Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/49955
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.17653
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Διαχείριση δεδομένων el
dc.subject Μηχανική μάθηση el
dc.subject Ροές εργασίας el
dc.subject Μεταγλωττιστής el
dc.subject Κυβερνήτης el
dc.subject Advanced data management en
dc.subject Machine learning en
dc.subject Kubernetes en
dc.subject Kubeflow en
dc.subject Pipelines en
dc.title Σχεδίαση και υλοποίηση μηχανισμού διαχείρισης δεδομένων για ροές εργασίας μηχανικής μάθησης στον κυβερνήτη el
dc.title Design and implementation of advanced data management for machine learning workflows on kubernetes en
heal.type bachelorThesis
heal.classification Διαχείρηση δεδομένων el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-07-11
heal.abstract Η μηχανική μάθηση κερδίζει μέρα με τη μέρα όλο και περισσότερο έδαφος, αφού λύνει περίπλοκα και κρίσιμα προβλήματα της καθημερινής ζωής μας εκμεταλλευόμενη σχετικά δεδομένα. Το Kubernetes είναι ένας ενορχηστρωτής κατανεμημένου φόρτου εργασίας που τρέχει σε συστοιχίες υπολογιστών και κέντρα δεδομένων. Το Kubeflow έρχεται και συγχωνεύει αυτές τις δύο έννοιες ως η καθιερωμένη πλατφόρμα για πραγματοποίηση μηχανικής μάθησης στο Kubernetes. Μια ροή εργασίας μηχανικής μάθησης είναι μια αυτοματοποιημένη και επαναληπτική ροή εργασίας πολλαπλών βημάτων που κάνει τη μηχανική μάθηση δυνατή. Το Kubeflow διαχειρίζεται τέτοιες ροές εργασίας μέσω του Kubeflow Pipelines. Κατά τη διάρκεια αυτής της διπλωματικής εργασίας γίναμε μέλη της κοινότητας του Kubeflow και ήρθαμε σε επαφή με ερευνητές, που αξιοποιούν το πεδίο της μηχανικής μάθησης, μέσω του Slack του Kubeflow και των συναντήσεων της κοινότητας. Διερευνώντας τις απαιτήσεις του πεδίου ανακαλύψαμε πως η προηγμένη διαχείριση δεδομένων εκλείπει από το Kubeflow Pipelines. Η εκτέλεση κάποιου Kubeflow Pipelines τοπικά ήταν δύσκολη ενώ η αναπαραγωγιμότητα ήταν απλώς μια χίμαιρα. Έτσι, σχεδιάσαμε μια επέκταση για να αντιμετωπίσουμε αυτό το εμπόδιο. Αρχικά, δημοσιεύσαμε ένα κείμενο τεχνικών προδιαγραφών και συλλέξαμε τις απόψεις των προγραμματιστών αλλά και της υπόλοιπης κοινότητας. Εν συνεχεία, υλοποιήσαμε τον προκύπτον σχεδιασμό και κάναμε μια σχετική επίδειξη στη συνάντηση της κοινότητας την 26η Φεβρουαρίου, 2019. Έπειτα, υποβάλαμε μια αίτηση προσθήκης της επέκτασης στο επίσημο πρότζεκτ του Kubeflow Pipelines. Ως εκ τούτου, διευκολύνθηκε η κατανόηση του σχεδιασμού και της υλοποίησής μας, ενώ η κοινότητα είχε τη δυνατότητα να τη δοκιμάσει. Τελικά, μετά από ένα σύνολο αναθεωρήσεων, επανασχεδιασμών και βελτιώσεων η υλοποίηση του τελικού σχεδιασμού μας ενσωματώθηκε και είναι πλέον μέρος του επίσημου πρότζεκτ. Συνολικά, η επέκτασή μας χρησιμοποιείται ευρέως από οργανισμούς, όπως IBM και Seldon, αλλά και από ιδιωτικούς χρήστες, και λαμβάνει όλο και περισσότερη προσοχή καθημερινά. Ο στόχος που πετύχαμε σε αυτήν την εργασία δεν ήταν μόνο να λύσουμε ένα πρόβλημα, αλλά να το κάνουμε με τέτοιο τρόπο ώστε οι τελικοί χρήστες να μπορούν να ωφεληθούν από αυτό. el
heal.abstract Machine learning (ML) is increasingly gaining traction day by day, since it gets to solve complex and critical problems in our everyday lives by exploiting related data. Kubernetes is a distributed workload orchestrator running over clusters and data centers. Kubeflow comes to merge these two concepts by being the de facto used platform for running machine learning on Kubernetes. A machine learning workflow is a multistep, automated and iterative workflow rendering ML possible. Kubeflow manages such workflows as instances of Kubeflow Pipelines. During this thesis we became part of the Kubeflow community and we got in touch with data scientists through Kubeflow’s Slack workspace and Community Meetings. By performing requirements gathering we found out that Kubeflow Pipelines lack advanced data management. Running Kubeflow Pipelines on-prem was challenging and reproducibility was only a pipe dream. Therefore, we designed an extension to tackle that hindrance. Initially, we published a design document and collected feedback from developers and the rest of the community. Subsequently, we implemented the resulting design and demonstrated it during the Community Meeting of February 26, 2019. Then, we created a pull request adding the extension to the official Kubeflow Pipelines project. Hence, the understanding of our design and implementation was easier, while the community was also able to try it out. Finally, after a number of reviews, refactoring and enhancements our final design and implementation was merged and is now part of the official repository. All in all, the feature extension is widely used by organizations, such as IBM and Seldon, as well as other private users, and is getting more and more attention every day. The met objective of this thesis was to not only solve a problem, but also do it in such manner that end-users can actually benefit from it. en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.committeeMemberName Παπασπύρου, Νικόλαος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 90 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα