Εκτέλεση και βελτιστοποίηση ροών εργασιών Big Data σε περιβάλλοντα πολλαπλών μηχανών

Μηλιός, Ιωάννης; Milios, Ioannis

dc.contributor.author	Μηλιός, Ιωάννης	el
dc.contributor.author	Milios, Ioannis	en
dc.date.accessioned	2018-02-02T11:09:18Z
dc.date.available	2018-02-02T11:09:18Z
dc.date.issued	2018-02-02
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/46385
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.14850
dc.rights	Default License
dc.subject	Hadoop	el
dc.subject	Spark	en
dc.subject	Workflow	en
dc.subject	Operator	en
dc.subject	Multi-engine platforms	en
dc.subject	IReS	el
dc.subject	Rheem	en
dc.subject	Ροή εργασιών	el
dc.subject	Τελεστής	el
dc.subject	Περιβάλλον πολλαπλών μηχανών	el
dc.title	Εκτέλεση και βελτιστοποίηση ροών εργασιών Big Data σε περιβάλλοντα πολλαπλών μηχανών	el
heal.type	bachelorThesis
heal.classification	Κατανεμημένα συστήματα	el
heal.classificationURI	http://data.seab.gr/concepts/bfaa023280a6530e576380c5847aabcb55b25b7b
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2017-11-10
heal.abstract	Τα τελευταία χρόνια παρατηρείται μια έκρηξη δεδομένων στο διαδίκτυο. Η ποικιλία των κοινωνικών δικτύων και η ευκολία με την οποία παρέχεται η πρόσβαση σε αυτά, οδηγεί τους χρήστες στη μεταμόρφωση τεράστιου όγκου δεδομένων σε ημερήσια βάση. Σε αυτό συμβάλλει και η πτώση της τιμής του υλικού, με αποτέλεσμα μοναδικοί χρήστες να χρησιμοποιούν πολλαπλές συσκευές για την παραγωγή εικόνων, κειμένων, video κ.τ.λ. Η πληροφορία που υπάρχει σε αυτά τα δεδομένα και η ανάγκη που προκύπτει για την εξόρυξή της οδήγησε, από τις αρχές της προηγούμενης δεκαετίας, στη δημιουργία κατανεμημένων συστημάτων όπου με ειδικούς αλγορίθμους επεξεργάζονται τα δεδομένα και ανακτούν την απαραίτητη πληροφορία. Η διαφορά στον τρόπο αποθήκευσης και οι ποικίλοι τρόποι επεξεργασίας όμως έχουν οδηγήσει στην δημιουργία πολλαπλών τέτοιων μηχανών. Λόγω αυτής της ποικιλίας και κυρίως της διαφορετικότητας τους, οι χρήστες φαίνεται να είναι εγκλωβισμένοι στη χρησιμοποίηση μόνο λίγων εξ’ αυτών με αποτέλεσμα να βάλλεται τόσο η επεκτασιμότητα όσο και η λειτουργία των εφαρμογών τους. Τη λύση στο παραπάνω πρόβλημα έρχονται να δώσουν συστήματα τα οποία θα αδιαφορούν για την πλατφόρμα εκτέλεσης των ροών εργασιών, θα αντιμετωπίζουν τους τελεστές των εφαρμογών σαν μαύρα-κουτιά και θα αναθέτουν τις προς εκτέλεση εργασίες στα αντίστοιχα βέλτιστα συστήματα προς εκτέλεση. Στην παρούσα διπλωματική εργασία παρουσιάζουμε την δημιουργία και εκτέλεση ροών εργασιών (workflows) σε δεδομένα μεγάλου όγκου, σε δύο διαφορετικά συστήματα, το IReS και το Rheem. Σκοπός μας είναι η σύγκρισή τους όσον αφορά στην ευκολία δημιουργίας των workflows , στην βελτιστοποίηση του πλάνου εκτέλεσης και στην επιλογή των ελάχιστων υπολογιστικών πόρων για τη μείωση του κόστους. Για την επιλογή των εκάστοτε συστημάτων επεξεργασίας το IReS και το Rheem χρησιμοποιούν μοντέλα, που έχουν δημιουργηθεί στη φάση της εκπαίδευσης. Η δημιουργία αυτών των μοντέλων μέσω αλγορίθμων μηχανικής μάθησης, βασίζεται σε δεδομένα όπως ο χρόνος εκτέλεσης, ο αριθμός των πυρήνων που χρησιμοποιήθηκαν, το μέγεθος της κύριας μνήμης κ.τ.λ. Μελετώντας διαφορετικά σενάρια χρήσης, οδηγούμαστε τέλος σε συμπεράσματα που αφορούν κυρίως τη διαφορετική προσέγγιση των συστημάτων απέναντι στους τελεστές των ροών εργασιών, την ύπαρξη ή μη βέλτιστης πολιτικής χρήσης των διαθέσιμων υπολογιστικών πόρων και την διαδικασία δημιουργίας και εκτέλεσης του βέλτιστου πλάνου.	el
heal.abstract	In recent years a data outburst through the internet is observed. The variety of the social media available and the ease with which access is provided, leads towards creation of big data on daily basis. A big contribution to this is the price dr op of hardware and as a result a singl e user has access to multiple devices regarding image, text and video production among others. Information available in this kind of data and the necessity of mining that stems from it, has lead since the early 00s in the creation of distributed systems which employ specific algorithms in order to process the data and retrieve the information required. However, the difference in data storage and the various ways of processing, have introduced multiple engines capable of such operations. The culmination of such diversity in these systems is that the users appear to be tied to limited number of them which results that both the extensibility and the usability of the applications are compromised. In order to overcome the obs tacles stated above, certain systems have been developed which are not bound to a specific execution platform of the workflow. These systems treat the application operators as black - boxes and assign the tasks in the equivalent optimized systems to be execu ted. In this diploma thesis, the creation and execution of big data workflows in IReS and Rheem systems is presented. The primary objective is their comparison regarding the ease of creating such workflows, the optimization of the execution plan and the al location of the minimum resources needed so as to reduce the cost. In order to select the optimal execution plan, IReS and Rheem use models that have previously trained. With the assistance of machine learning algorithms, the generated models are based on meta data such as execution time, CPU load, size of main memory etc. Finally, through studying various usage scenarios arise three main conclusions. First of all, both IReS and Rheem approach the workflows differently as far as the operators are concerned. Furthermore, IReS supports an optimal policy on allocation of resources available in contrast with Rheem. Lastly, a comparison of the two systems is displayed regarding the implementation and execution of the optimal plan.	en
heal.advisorName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Γκούμας, Γεώργιος	el
heal.committeeMemberName	Τσουμάκος, Δημήτριος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	56 σ.
heal.fullTextAvailability	true