Σύστημα υποστήριξης αποφάσεων για παραμετροποίηση ροών εργασίας Apache Spark σε συστοιχίες Kubernetes

Σπύρου, Άρης; Aris, Spyrou

dc.contributor.author	Σπύρου, Άρης	el
dc.contributor.author	Aris, Spyrou	en
dc.date.accessioned	2023-01-27T09:10:50Z
dc.date.available	2023-01-27T09:10:50Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/56971
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.24669
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Μεγάλα Δεδομένα	el
dc.subject	Εργαλεία Ανάλυσης	el
dc.subject	Μηχανική Μάθηση	el
dc.subject	Διοχέτευση	el
dc.subject	Ελαφριά Εικονικοποίηση	el
dc.subject	Big Data	en
dc.subject	Machine Learning	en
dc.subject	Apache Spark	en
dc.subject	Kubeflow	en
dc.subject	Kubernetes	en
dc.title	Σύστημα υποστήριξης αποφάσεων για παραμετροποίηση ροών εργασίας Apache Spark σε συστοιχίες Kubernetes	el
dc.title	Decision Support System for Spark Job Configuration in Kubernetes Clusters	en
heal.type	masterThesis
heal.classification	Μεγάλα Δεδομένα	el
heal.classification	Big Data	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-12-14
heal.abstract	Τα τελευταία χρόνια βλέπουμε μία αυξητική τάση όσον αφορά τον όγκο τον δεδομένων που παράγονται. Τα δεδομένα αποτελούν βασικό προϊόν είτε υποπροϊόν όλων των ανθρω- πίνων δραστηριοτήτων καθώς σε διάφορα στάδια εμπλέκεται συχνά ένας εγκέφαλος που είναι ικανός να παράγει και να εξάγει δεδομένα. Ως αποτέλεσμα έχουν δημιουργηθεί πολλά ερ- γαλεία που αποσκοπούν στην ανάλυση και στην εφαρμογή μεθόδων μηχανικής μάθησης σε μεγάλους όγκους δεδομένων. ́Ωριμα συστήματα όπως το Hadoop και το Apache Spark απο- τελούν ακρογωνιαίους λίθους για την διαχείριση μεγάλων δεδομένων. Πλέον με την στροφή των υπολογιστικών μοτίβων στην χρήση μηχανών ελαφριάς εικονικοποίησης εισάγονται στο προσκήνιο και άλλα συστήματα όπως το Kubeflow που Σει σε συστοιχίες Kubernetes. ∆εν υπάρχουν ωστόσο ολοκληρωμένες λύσεις που να επιτρέπουν την πλήρη διαλειτουργικότητα των συστοιχιών Apache Spark με το οικοσύστημα του Kubeflow. Στην παρούσα διπλωματική εργασία επεκτείνουμε το εργαλείο Kubeflow Pipelines με σκοπό την υποστήριξη επιτόπιων συστοιχιών Apache Spark, αναπτύσσουμε δοκιμαστική διοχέτευση που επιδεικνύει της δυ- νατότητες του συστήματος που αναπτύξαμε, αποτιμούμε την συστοιχία Apache Spark σε γνωστό benchmark της βιομηχανίας και προτείνουμε μια μέθοδο για την υποστήριξη της απόφασης στην εκκίνηση συστοιχιών.	el
heal.abstract	In recent years we have seen an increasing trend in the volume of data being produced. Data is a core product or by-product of all human activities due to the involvement of computer processors capable of extracting and producing data at various stages of different processes. As a result, many tools have been developed that are meant to analyze and apply machine learning methods to large volumes of data. Mature systems like Hadoop and Apache Spark are cornerstones of big data management. Nowadays the popular computing paradigm has shifted to the use of lightweight virtualization engines, other systems such as Kubeflow that live within the Kubernetes ecosystem are more widespread. However, there are no complete solutions that allow full interoperability of Apache Spark clusters with the Kubeflow ecosystem. In this thesis we extend the Kubeflow Pipelines tool to support on-premises Apache Spark clusters, we develop a test pipeline that demonstrates the capabilities of the system we developed, we evaluate the Apache Spark cluster on an industry standard benchmark and propose a method to support users in the cluster-setup decision process.	en
heal.advisorName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Κωνσταντίνου, Ιωάννης	el
heal.committeeMemberName	Τσουμάκος, Δημήτριος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	80 σ.	el
heal.fullTextAvailability	false