HEAL DSpace

Αποτίμηση της κατανεμημένης διαχείρισης κατάστασης σε συστήματα διαχείρισης δεδομένων μεγάλης κλίμακας

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πλεύρης, Κωνσταντίνος el
dc.contributor.author Plevris, Konstantinos en
dc.date.accessioned 2022-09-27T08:47:36Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/55767
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.23465
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Μεγάλα δεδομένα el
dc.subject Απόπλεξη δεδομένων el
dc.subject Μηχανισμός διαμοιρασμού και ταξινόμησης el
dc.subject Υπολογιστικά νέφη el
dc.subject Κατανεμημένες βάσεις δεδομένων el
dc.subject Apache spark en
dc.subject Big data en
dc.subject Distributed databases en
dc.subject Data disaggregation en
dc.subject Shuffling mechanism en
dc.title Αποτίμηση της κατανεμημένης διαχείρισης κατάστασης σε συστήματα διαχείρισης δεδομένων μεγάλης κλίμακας el
heal.type masterThesis
heal.secondaryTitle Evaluation of Distributed State Management in Big Data Systems en
heal.classification Συστήματα Διαχείρισης Μεγάλων Δεδομένων el
heal.dateAvailable 2023-09-26T21:00:00Z
heal.language el
heal.access embargo
heal.recordProvider ntua el
heal.publicationDate 2022-04-11
heal.abstract Αυτή η διπλωματική εργασία έχει ως αντικείμενο την απόπλεξη των ενδιάμεσων δεδομένων που προκύπτουν από τον μηχανισμό του shuffle, καθώς είναι γνωστό πως αυτό αποτελεί σημείο συμφόρησης κατά την επεξεργασία τους. Θα εστιάσουμε ειδικότερα στο εργαλείο Apache Spark, το οποίο χρησιμοποιείται για την επεξεργασία δεδομένων μεγάλης κλίμακας. Παρουσιάζονται δύο τρόποι αποθήκευσης των ενδιάμεσων αποτελεσμάτων του Shuffle 1) Με το redis (το οποίο αποτελεί ένα cache που αποθηκεύει δεδομένα στην μνήμη (RAM)) 2) Με την βάση δεδομένων mongodb που παρατάσσεται σε κατανεμημένη αρχιτεκτονική (Mongodb Distributed Sharded Cluster). Έτσι οι worker (οι κόμβοι του Apache Spark που εκτελούν την επεξεργασία των δεδομένων) αποπλέκονται από την αποθήκευση και διαχείριση των shuffle δεδομένων, καθιστώντας την ύπαρξη τους εφήμερη, καθώς η διατήρηση των δεδομένων δεν γίνεται πλέον σε τοπικό επίπεδο. Ως κύριο μέσο για τον έλεγχο, την ανάπτυξη και την εξαγωγή αποτελεσμάτων χρησιμοποιήθηκε η γνωστή πλατφόρμα Kubernetes, πάνω από ένα cluster εικονικών μηχανών (virtual Machines VMs). Με αυτό πετυχαίνουμε την εύκολη διαχείριση των κόμβων του Spark, του Redis και του Mongodb. Τέλος, εκτελούμε πειράματα χρησιμοποιώντας ένα τεστ κόπωσης (stress test) για τον μηχανισμό του shuffle έτσι ώστε να αξιολογήσουμε τις υλοποιήσεις μας, όπως και του Vanilla Apache Spark. el
heal.abstract The purpose of this thesis is to disaggreagete the intermediate data resulting from the shuffle mechanism as it is known to be a point of congestion during data processing. We will focus in particular on the Apache Spark tool, which is used for large-scale data processing. We present two ways to store Shuffle intermediate results 1) with redis (which is a cache that stores data in memory(RAM)) 2) with the mongodb database deployed as a distributed architecture (Mongodb Distributed Sharded Cluster). Thus the workers (the Apache Spark nodes that perform the data processing) are untangled from the storage and management of the shuffle data, making their existence ephemeral, as the data is no longer stored locally. The well-known Kubernetes platform was used as the main tool for controlling, deployment and exporting results, on top of a set of virtual Machines VMs , with which we achieve easy management of Spark, Redis and Mongodb nodes. Lastly, we perform experiments using a stress-testing workload for the shuffle mechanism, in order to evaluate the performance of the redis and mongodb implementations as well as the performance of vanilla Spark. en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.advisorName Κωνσταντίνου, Ιωάννης el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κωνσταντίνου, Ιωάννης el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής