HEAL DSpace

Εκτέλεση και βελτιστοποίηση ροών εργασιών Big Data σε περιβάλλοντα πολλαπλών μηχανών

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μηλιός, Ιωάννης el
dc.contributor.author Milios, Ioannis en
dc.date.accessioned 2018-02-02T11:09:18Z
dc.date.available 2018-02-02T11:09:18Z
dc.date.issued 2018-02-02
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/46385
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14850
dc.rights Default License
dc.subject Hadoop el
dc.subject Spark en
dc.subject Workflow en
dc.subject Operator en
dc.subject Multi-engine platforms en
dc.subject IReS el
dc.subject Rheem en
dc.subject Ροή εργασιών el
dc.subject Τελεστής el
dc.subject Περιβάλλον πολλαπλών μηχανών el
dc.title Εκτέλεση και βελτιστοποίηση ροών εργασιών Big Data σε περιβάλλοντα πολλαπλών μηχανών el
heal.type bachelorThesis
heal.classification Κατανεμημένα συστήματα el
heal.classificationURI http://data.seab.gr/concepts/bfaa023280a6530e576380c5847aabcb55b25b7b
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-11-10
heal.abstract Τα τελευταία χρόνια παρατηρείται μια έκρηξη δεδομένων στο διαδίκτυο. Η ποικιλία των κοινωνικών δικτύων και η ευκολία με την οποία παρέχεται η πρόσβαση σε αυτά, οδηγεί τους χρήστες στη μεταμόρφωση τεράστιου όγκου δεδομένων σε ημερήσια βάση. Σε αυτό συμβάλλει και η πτώση της τιμής του υλικού, με αποτέλεσμα μοναδικοί χρήστες να χρησιμοποιούν πολλαπλές συσκευές για την παραγωγή εικόνων, κειμένων, video κ.τ.λ. Η πληροφορία που υπάρχει σε αυτά τα δεδομένα και η ανάγκη που προκύπτει για την εξόρυξή της οδήγησε, από τις αρχές της προηγούμενης δεκαετίας, στη δημιουργία κατανεμημένων συστημάτων όπου με ειδικούς αλγορίθμους επεξεργάζονται τα δεδομένα και ανακτούν την απαραίτητη πληροφορία. Η διαφορά στον τρόπο αποθήκευσης και οι ποικίλοι τρόποι επεξεργασίας όμως έχουν οδηγήσει στην δημιουργία πολλαπλών τέτοιων μηχανών. Λόγω αυτής της ποικιλίας και κυρίως της διαφορετικότητας τους, οι χρήστες φαίνεται να είναι εγκλωβισμένοι στη χρησιμοποίηση μόνο λίγων εξ’ αυτών με αποτέλεσμα να βάλλεται τόσο η επεκτασιμότητα όσο και η λειτουργία των εφαρμογών τους. Τη λύση στο παραπάνω πρόβλημα έρχονται να δώσουν συστήματα τα οποία θα αδιαφορούν για την πλατφόρμα εκτέλεσης των ροών εργασιών, θα αντιμετωπίζουν τους τελεστές των εφαρμογών σαν μαύρα-κουτιά και θα αναθέτουν τις προς εκτέλεση εργασίες στα αντίστοιχα βέλτιστα συστήματα προς εκτέλεση. Στην παρούσα διπλωματική εργασία παρουσιάζουμε την δημιουργία και εκτέλεση ροών εργασιών (workflows) σε δεδομένα μεγάλου όγκου, σε δύο διαφορετικά συστήματα, το IReS και το Rheem. Σκοπός μας είναι η σύγκρισή τους όσον αφορά στην ευκολία δημιουργίας των workflows , στην βελτιστοποίηση του πλάνου εκτέλεσης και στην επιλογή των ελάχιστων υπολογιστικών πόρων για τη μείωση του κόστους. Για την επιλογή των εκάστοτε συστημάτων επεξεργασίας το IReS και το Rheem χρησιμοποιούν μοντέλα, που έχουν δημιουργηθεί στη φάση της εκπαίδευσης. Η δημιουργία αυτών των μοντέλων μέσω αλγορίθμων μηχανικής μάθησης, βασίζεται σε δεδομένα όπως ο χρόνος εκτέλεσης, ο αριθμός των πυρήνων που χρησιμοποιήθηκαν, το μέγεθος της κύριας μνήμης κ.τ.λ. Μελετώντας διαφορετικά σενάρια χρήσης, οδηγούμαστε τέλος σε συμπεράσματα που αφορούν κυρίως τη διαφορετική προσέγγιση των συστημάτων απέναντι στους τελεστές των ροών εργασιών, την ύπαρξη ή μη βέλτιστης πολιτικής χρήσης των διαθέσιμων υπολογιστικών πόρων και την διαδικασία δημιουργίας και εκτέλεσης του βέλτιστου πλάνου. el
heal.abstract In recent years a data outburst through the internet is observed. The variety of the social media available and the ease with which access is provided, leads towards creation of big data on daily basis. A big contribution to this is the price dr op of hardware and as a result a singl e user has access to multiple devices regarding image, text and video production among others. Information available in this kind of data and the necessity of mining that stems from it, has lead since the early 00s in the creation of distributed systems which employ specific algorithms in order to process the data and retrieve the information required. However, the difference in data storage and the various ways of processing, have introduced multiple engines capable of such operations. The culmination of such diversity in these systems is that the users appear to be tied to limited number of them which results that both the extensibility and the usability of the applications are compromised. In order to overcome the obs tacles stated above, certain systems have been developed which are not bound to a specific execution platform of the workflow. These systems treat the application operators as black - boxes and assign the tasks in the equivalent optimized systems to be execu ted. In this diploma thesis, the creation and execution of big data workflows in IReS and Rheem systems is presented. The primary objective is their comparison regarding the ease of creating such workflows, the optimization of the execution plan and the al location of the minimum resources needed so as to reduce the cost. In order to select the optimal execution plan, IReS and Rheem use models that have previously trained. With the assistance of machine learning algorithms, the generated models are based on meta data such as execution time, CPU load, size of main memory etc. Finally, through studying various usage scenarios arise three main conclusions. First of all, both IReS and Rheem approach the workflows differently as far as the operators are concerned. Furthermore, IReS supports an optimal policy on allocation of resources available in contrast with Rheem. Lastly, a comparison of the two systems is displayed regarding the implementation and execution of the optimal plan. en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.committeeMemberName Τσουμάκος, Δημήτριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 56 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής