dc.contributor.author | Κατσακιώρης, Ηλίας | el |
dc.contributor.author | Katsakioris, Ilias | en |
dc.date.accessioned | 2020-03-30T09:49:33Z | |
dc.date.available | 2020-03-30T09:49:33Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/49955 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.17653 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Διαχείριση δεδομένων | el |
dc.subject | Μηχανική μάθηση | el |
dc.subject | Ροές εργασίας | el |
dc.subject | Μεταγλωττιστής | el |
dc.subject | Κυβερνήτης | el |
dc.subject | Advanced data management | en |
dc.subject | Machine learning | en |
dc.subject | Kubernetes | en |
dc.subject | Kubeflow | en |
dc.subject | Pipelines | en |
dc.title | Σχεδίαση και υλοποίηση μηχανισμού διαχείρισης δεδομένων για ροές εργασίας μηχανικής μάθησης στον κυβερνήτη | el |
dc.title | Design and implementation of advanced data management for machine learning workflows on kubernetes | en |
heal.type | bachelorThesis | |
heal.classification | Διαχείρηση δεδομένων | el |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2019-07-11 | |
heal.abstract | Η μηχανική μάθηση κερδίζει μέρα με τη μέρα όλο και περισσότερο έδαφος, αφού λύνει περίπλοκα και κρίσιμα προβλήματα της καθημερινής ζωής μας εκμεταλλευόμενη σχετικά δεδομένα. Το Kubernetes είναι ένας ενορχηστρωτής κατανεμημένου φόρτου εργασίας που τρέχει σε συστοιχίες υπολογιστών και κέντρα δεδομένων. Το Kubeflow έρχεται και συγχωνεύει αυτές τις δύο έννοιες ως η καθιερωμένη πλατφόρμα για πραγματοποίηση μηχανικής μάθησης στο Kubernetes. Μια ροή εργασίας μηχανικής μάθησης είναι μια αυτοματοποιημένη και επαναληπτική ροή εργασίας πολλαπλών βημάτων που κάνει τη μηχανική μάθηση δυνατή. Το Kubeflow διαχειρίζεται τέτοιες ροές εργασίας μέσω του Kubeflow Pipelines. Κατά τη διάρκεια αυτής της διπλωματικής εργασίας γίναμε μέλη της κοινότητας του Kubeflow και ήρθαμε σε επαφή με ερευνητές, που αξιοποιούν το πεδίο της μηχανικής μάθησης, μέσω του Slack του Kubeflow και των συναντήσεων της κοινότητας. Διερευνώντας τις απαιτήσεις του πεδίου ανακαλύψαμε πως η προηγμένη διαχείριση δεδομένων εκλείπει από το Kubeflow Pipelines. Η εκτέλεση κάποιου Kubeflow Pipelines τοπικά ήταν δύσκολη ενώ η αναπαραγωγιμότητα ήταν απλώς μια χίμαιρα. Έτσι, σχεδιάσαμε μια επέκταση για να αντιμετωπίσουμε αυτό το εμπόδιο. Αρχικά, δημοσιεύσαμε ένα κείμενο τεχνικών προδιαγραφών και συλλέξαμε τις απόψεις των προγραμματιστών αλλά και της υπόλοιπης κοινότητας. Εν συνεχεία, υλοποιήσαμε τον προκύπτον σχεδιασμό και κάναμε μια σχετική επίδειξη στη συνάντηση της κοινότητας την 26η Φεβρουαρίου, 2019. Έπειτα, υποβάλαμε μια αίτηση προσθήκης της επέκτασης στο επίσημο πρότζεκτ του Kubeflow Pipelines. Ως εκ τούτου, διευκολύνθηκε η κατανόηση του σχεδιασμού και της υλοποίησής μας, ενώ η κοινότητα είχε τη δυνατότητα να τη δοκιμάσει. Τελικά, μετά από ένα σύνολο αναθεωρήσεων, επανασχεδιασμών και βελτιώσεων η υλοποίηση του τελικού σχεδιασμού μας ενσωματώθηκε και είναι πλέον μέρος του επίσημου πρότζεκτ. Συνολικά, η επέκτασή μας χρησιμοποιείται ευρέως από οργανισμούς, όπως IBM και Seldon, αλλά και από ιδιωτικούς χρήστες, και λαμβάνει όλο και περισσότερη προσοχή καθημερινά. Ο στόχος που πετύχαμε σε αυτήν την εργασία δεν ήταν μόνο να λύσουμε ένα πρόβλημα, αλλά να το κάνουμε με τέτοιο τρόπο ώστε οι τελικοί χρήστες να μπορούν να ωφεληθούν από αυτό. | el |
heal.abstract | Machine learning (ML) is increasingly gaining traction day by day, since it gets to solve complex and critical problems in our everyday lives by exploiting related data. Kubernetes is a distributed workload orchestrator running over clusters and data centers. Kubeflow comes to merge these two concepts by being the de facto used platform for running machine learning on Kubernetes. A machine learning workflow is a multistep, automated and iterative workflow rendering ML possible. Kubeflow manages such workflows as instances of Kubeflow Pipelines. During this thesis we became part of the Kubeflow community and we got in touch with data scientists through Kubeflow’s Slack workspace and Community Meetings. By performing requirements gathering we found out that Kubeflow Pipelines lack advanced data management. Running Kubeflow Pipelines on-prem was challenging and reproducibility was only a pipe dream. Therefore, we designed an extension to tackle that hindrance. Initially, we published a design document and collected feedback from developers and the rest of the community. Subsequently, we implemented the resulting design and demonstrated it during the Community Meeting of February 26, 2019. Then, we created a pull request adding the extension to the official Kubeflow Pipelines project. Hence, the understanding of our design and implementation was easier, while the community was also able to try it out. Finally, after a number of reviews, refactoring and enhancements our final design and implementation was merged and is now part of the official repository. All in all, the feature extension is widely used by organizations, such as IBM and Seldon, as well as other private users, and is getting more and more attention every day. The met objective of this thesis was to not only solve a problem, but also do it in such manner that end-users can actually benefit from it. | en |
heal.advisorName | Κοζύρης, Νεκτάριος | el |
heal.committeeMemberName | Κοζύρης, Νεκτάριος | el |
heal.committeeMemberName | Γκούμας, Γεώργιος | el |
heal.committeeMemberName | Παπασπύρου, Νικόλαος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 90 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: