dc.contributor.author |
Πλεύρης, Κωνσταντίνος
|
el |
dc.contributor.author |
Plevris, Konstantinos
|
en |
dc.date.accessioned |
2022-09-27T08:47:36Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/55767 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.23465 |
|
dc.description |
Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" |
el |
dc.rights |
Default License |
|
dc.subject |
Μεγάλα δεδομένα |
el |
dc.subject |
Απόπλεξη δεδομένων |
el |
dc.subject |
Μηχανισμός διαμοιρασμού και ταξινόμησης |
el |
dc.subject |
Υπολογιστικά νέφη |
el |
dc.subject |
Κατανεμημένες βάσεις δεδομένων |
el |
dc.subject |
Apache spark |
en |
dc.subject |
Big data |
en |
dc.subject |
Distributed databases |
en |
dc.subject |
Data disaggregation |
en |
dc.subject |
Shuffling mechanism |
en |
dc.title |
Αποτίμηση της κατανεμημένης διαχείρισης κατάστασης σε συστήματα διαχείρισης δεδομένων μεγάλης κλίμακας |
el |
heal.type |
masterThesis |
|
heal.secondaryTitle |
Evaluation of Distributed State Management in Big Data Systems |
en |
heal.classification |
Συστήματα Διαχείρισης Μεγάλων Δεδομένων |
el |
heal.dateAvailable |
2023-09-26T21:00:00Z |
|
heal.language |
el |
|
heal.access |
embargo |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2022-04-11 |
|
heal.abstract |
Αυτή η διπλωματική εργασία έχει ως αντικείμενο την απόπλεξη των ενδιάμεσων δεδομένων που προκύπτουν από τον μηχανισμό του shuffle, καθώς είναι γνωστό πως αυτό αποτελεί σημείο συμφόρησης κατά την επεξεργασία τους. Θα εστιάσουμε ειδικότερα στο εργαλείο Apache Spark, το οποίο χρησιμοποιείται για την επεξεργασία δεδομένων μεγάλης κλίμακας.
Παρουσιάζονται δύο τρόποι αποθήκευσης των ενδιάμεσων αποτελεσμάτων του Shuffle 1) Με το redis (το οποίο αποτελεί ένα cache που αποθηκεύει δεδομένα στην μνήμη (RAM)) 2) Με την βάση δεδομένων mongodb που παρατάσσεται σε κατανεμημένη αρχιτεκτονική (Mongodb Distributed Sharded Cluster). Έτσι οι worker (οι κόμβοι του Apache Spark που εκτελούν την επεξεργασία των δεδομένων) αποπλέκονται από την αποθήκευση και διαχείριση των shuffle δεδομένων, καθιστώντας την ύπαρξη τους εφήμερη, καθώς η διατήρηση των δεδομένων δεν γίνεται πλέον σε τοπικό επίπεδο.
Ως κύριο μέσο για τον έλεγχο, την ανάπτυξη και την εξαγωγή αποτελεσμάτων χρησιμοποιήθηκε η γνωστή πλατφόρμα Kubernetes, πάνω από ένα cluster εικονικών μηχανών (virtual Machines VMs). Με αυτό πετυχαίνουμε την εύκολη διαχείριση των κόμβων του Spark, του Redis και του Mongodb. Τέλος, εκτελούμε πειράματα χρησιμοποιώντας ένα τεστ κόπωσης (stress test) για τον μηχανισμό του shuffle έτσι ώστε να αξιολογήσουμε τις υλοποιήσεις μας, όπως και του Vanilla Apache Spark. |
el |
heal.abstract |
The purpose of this thesis is to disaggreagete the intermediate data resulting from the shuffle mechanism as it is known to be a point of congestion during data processing. We will focus in particular on the Apache Spark tool, which is used for large-scale data processing.
We present two ways to store Shuffle intermediate results 1) with redis (which is a cache that stores data in memory(RAM)) 2) with the mongodb database deployed as a distributed architecture (Mongodb Distributed Sharded Cluster). Thus the workers (the Apache Spark nodes that perform the data processing) are untangled from the storage and management of the shuffle data, making their existence ephemeral, as the data is no longer stored locally.
The well-known Kubernetes platform was used as the main tool for controlling, deployment and exporting results, on top of a set of virtual Machines VMs , with which we achieve easy management of Spark, Redis and Mongodb nodes. Lastly, we perform experiments using a stress-testing workload for the shuffle mechanism, in order to evaluate the performance of the redis and mongodb implementations as well as the performance of vanilla Spark. |
en |
heal.advisorName |
Κοζύρης, Νεκτάριος |
el |
heal.advisorName |
Κωνσταντίνου, Ιωάννης |
el |
heal.committeeMemberName |
Κοζύρης, Νεκτάριος |
el |
heal.committeeMemberName |
Κωνσταντίνου, Ιωάννης |
el |
heal.committeeMemberName |
Γκούμας, Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.fullTextAvailability |
false |
|