HEAL DSpace

Σύστημα υποστήριξης αποφάσεων για παραμετροποίηση ροών εργασίας Apache Spark σε συστοιχίες Kubernetes

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σπύρου, Άρης el
dc.contributor.author Aris, Spyrou en
dc.date.accessioned 2023-01-27T09:10:50Z
dc.date.available 2023-01-27T09:10:50Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56971
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24669
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μεγάλα Δεδομένα el
dc.subject Εργαλεία Ανάλυσης el
dc.subject Μηχανική Μάθηση el
dc.subject Διοχέτευση el
dc.subject Ελαφριά Εικονικοποίηση el
dc.subject Big Data en
dc.subject Machine Learning en
dc.subject Apache Spark en
dc.subject Kubeflow en
dc.subject Kubernetes en
dc.title Σύστημα υποστήριξης αποφάσεων για παραμετροποίηση ροών εργασίας Apache Spark σε συστοιχίες Kubernetes el
dc.title Decision Support System for Spark Job Configuration in Kubernetes Clusters en
heal.type masterThesis
heal.classification Μεγάλα Δεδομένα el
heal.classification Big Data en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-12-14
heal.abstract Τα τελευταία χρόνια βλέπουμε μία αυξητική τάση όσον αφορά τον όγκο τον δεδομένων που παράγονται. Τα δεδομένα αποτελούν βασικό προϊόν είτε υποπροϊόν όλων των ανθρω- πίνων δραστηριοτήτων καθώς σε διάφορα στάδια εμπλέκεται συχνά ένας εγκέφαλος που είναι ικανός να παράγει και να εξάγει δεδομένα. Ως αποτέλεσμα έχουν δημιουργηθεί πολλά ερ- γαλεία που αποσκοπούν στην ανάλυση και στην εφαρμογή μεθόδων μηχανικής μάθησης σε μεγάλους όγκους δεδομένων. ́Ωριμα συστήματα όπως το Hadoop και το Apache Spark απο- τελούν ακρογωνιαίους λίθους για την διαχείριση μεγάλων δεδομένων. Πλέον με την στροφή των υπολογιστικών μοτίβων στην χρήση μηχανών ελαφριάς εικονικοποίησης εισάγονται στο προσκήνιο και άλλα συστήματα όπως το Kubeflow που Σει σε συστοιχίες Kubernetes. ∆εν υπάρχουν ωστόσο ολοκληρωμένες λύσεις που να επιτρέπουν την πλήρη διαλειτουργικότητα των συστοιχιών Apache Spark με το οικοσύστημα του Kubeflow. Στην παρούσα διπλωματική εργασία επεκτείνουμε το εργαλείο Kubeflow Pipelines με σκοπό την υποστήριξη επιτόπιων συστοιχιών Apache Spark, αναπτύσσουμε δοκιμαστική διοχέτευση που επιδεικνύει της δυ- νατότητες του συστήματος που αναπτύξαμε, αποτιμούμε την συστοιχία Apache Spark σε γνωστό benchmark της βιομηχανίας και προτείνουμε μια μέθοδο για την υποστήριξη της απόφασης στην εκκίνηση συστοιχιών. el
heal.abstract In recent years we have seen an increasing trend in the volume of data being produced. Data is a core product or by-product of all human activities due to the involvement of computer processors capable of extracting and producing data at various stages of different processes. As a result, many tools have been developed that are meant to analyze and apply machine learning methods to large volumes of data. Mature systems like Hadoop and Apache Spark are cornerstones of big data management. Nowadays the popular computing paradigm has shifted to the use of lightweight virtualization engines, other systems such as Kubeflow that live within the Kubernetes ecosystem are more widespread. However, there are no complete solutions that allow full interoperability of Apache Spark clusters with the Kubeflow ecosystem. In this thesis we extend the Kubeflow Pipelines tool to support on-premises Apache Spark clusters, we develop a test pipeline that demonstrates the capabilities of the system we developed, we evaluate the Apache Spark cluster on an industry standard benchmark and propose a method to support users in the cluster-setup decision process. en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κωνσταντίνου, Ιωάννης el
heal.committeeMemberName Τσουμάκος, Δημήτριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 80 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα