dc.contributor.author |
Μηλιός, Ιωάννης
|
el |
dc.contributor.author |
Milios, Ioannis
|
en |
dc.date.accessioned |
2018-02-02T11:09:18Z |
|
dc.date.available |
2018-02-02T11:09:18Z |
|
dc.date.issued |
2018-02-02 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/46385 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.14850 |
|
dc.rights |
Default License |
|
dc.subject |
Hadoop |
el |
dc.subject |
Spark |
en |
dc.subject |
Workflow |
en |
dc.subject |
Operator |
en |
dc.subject |
Multi-engine platforms |
en |
dc.subject |
IReS |
el |
dc.subject |
Rheem |
en |
dc.subject |
Ροή εργασιών |
el |
dc.subject |
Τελεστής |
el |
dc.subject |
Περιβάλλον πολλαπλών μηχανών |
el |
dc.title |
Εκτέλεση και βελτιστοποίηση ροών εργασιών Big Data σε περιβάλλοντα πολλαπλών μηχανών |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Κατανεμημένα συστήματα |
el |
heal.classificationURI |
http://data.seab.gr/concepts/bfaa023280a6530e576380c5847aabcb55b25b7b |
|
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2017-11-10 |
|
heal.abstract |
Τα τελευταία χρόνια παρατηρείται μια έκρηξη δεδομένων στο διαδίκτυο. Η ποικιλία των κοινωνικών δικτύων και η ευκολία με την οποία παρέχεται η πρόσβαση σε αυτά, οδηγεί τους χρήστες στη μεταμόρφωση τεράστιου όγκου δεδομένων σε ημερήσια βάση. Σε αυτό συμβάλλει και η πτώση της τιμής του υλικού, με αποτέλεσμα μοναδικοί χρήστες να χρησιμοποιούν πολλαπλές συσκευές για την παραγωγή εικόνων, κειμένων, video κ.τ.λ.
Η πληροφορία που υπάρχει σε αυτά τα δεδομένα και η ανάγκη που προκύπτει για την εξόρυξή της οδήγησε, από τις αρχές της προηγούμενης δεκαετίας, στη δημιουργία κατανεμημένων συστημάτων όπου με ειδικούς αλγορίθμους επεξεργάζονται τα δεδομένα και ανακτούν την απαραίτητη πληροφορία. Η διαφορά στον τρόπο αποθήκευσης και οι ποικίλοι τρόποι επεξεργασίας όμως έχουν οδηγήσει στην δημιουργία πολλαπλών τέτοιων μηχανών. Λόγω αυτής της ποικιλίας και κυρίως της διαφορετικότητας τους, οι χρήστες φαίνεται να είναι εγκλωβισμένοι στη χρησιμοποίηση μόνο λίγων εξ’ αυτών με αποτέλεσμα να βάλλεται τόσο η επεκτασιμότητα όσο και η λειτουργία των εφαρμογών τους.
Τη λύση στο παραπάνω πρόβλημα έρχονται να δώσουν συστήματα τα οποία θα αδιαφορούν για την πλατφόρμα εκτέλεσης των ροών εργασιών, θα αντιμετωπίζουν τους τελεστές των εφαρμογών σαν μαύρα-κουτιά και θα αναθέτουν τις προς εκτέλεση εργασίες στα αντίστοιχα βέλτιστα συστήματα προς εκτέλεση.
Στην παρούσα διπλωματική εργασία παρουσιάζουμε την δημιουργία και εκτέλεση ροών εργασιών (workflows) σε δεδομένα μεγάλου όγκου, σε δύο διαφορετικά συστήματα, το IReS και το Rheem. Σκοπός μας είναι η σύγκρισή τους όσον αφορά στην ευκολία δημιουργίας των workflows , στην βελτιστοποίηση του πλάνου εκτέλεσης και στην επιλογή των ελάχιστων υπολογιστικών πόρων για τη μείωση του κόστους.
Για την επιλογή των εκάστοτε συστημάτων επεξεργασίας το IReS και το Rheem χρησιμοποιούν μοντέλα, που έχουν δημιουργηθεί στη φάση της εκπαίδευσης. Η δημιουργία αυτών των μοντέλων μέσω αλγορίθμων μηχανικής μάθησης, βασίζεται σε δεδομένα όπως ο χρόνος εκτέλεσης, ο αριθμός των πυρήνων που χρησιμοποιήθηκαν, το μέγεθος της κύριας μνήμης κ.τ.λ.
Μελετώντας διαφορετικά σενάρια χρήσης, οδηγούμαστε τέλος σε συμπεράσματα που αφορούν κυρίως τη διαφορετική προσέγγιση των συστημάτων απέναντι στους τελεστές των ροών εργασιών, την ύπαρξη ή μη βέλτιστης πολιτικής χρήσης των διαθέσιμων υπολογιστικών πόρων και την διαδικασία δημιουργίας και εκτέλεσης του βέλτιστου πλάνου. |
el |
heal.abstract |
In recent years a data outburst through the internet is observed. The variety of the social media
available and the ease with which access is provided, leads towards creation of big data on daily
basis. A big contribution to this is the price dr
op of hardware and as a result a singl
e user has
access to multiple
devices regarding image, text and video production among others.
Information available in this kind of data and the necessity of mining that stems from it, has lead
since the early 00s in
the creation of distributed systems which employ specific algorithms in
order to process the data and retrieve the information required. However, the difference in data
storage and the various ways of processing, have introduced multiple engines capable of
such
operations. The culmination of such diversity in these systems is that the users appear to be tied
to limited number of them which results that both the extensibility and the usability of the
applications are compromised.
In order to overcome the obs
tacles stated above,
certain systems have been developed which are
not bound to a specific execution platform of the workflow. These systems treat the application
operators as black
-
boxes and assign the tasks in the equivalent optimized systems to be execu
ted.
In this diploma thesis, the creation and execution of big data workflows in IReS and Rheem
systems is presented. The primary objective is their comparison regarding the ease of creating
such workflows, the optimization of the execution plan and the al
location of the minimum
resources needed so as to reduce the cost.
In order to select the optimal execution plan, IReS and Rheem use models that have previously
trained. With the assistance of machine learning algorithms, the generated models are based on
meta data such as execution time, CPU load, size of main memory etc.
Finally, through studying various usage scenarios arise three main conclusions. First of all, both
IReS and Rheem approach the workflows differently as far as the operators are concerned.
Furthermore, IReS supports an optimal policy on allocation of resources available in contrast
with Rheem. Lastly, a comparison of the two systems is displayed regarding the implementation
and execution of the optimal plan. |
en |
heal.advisorName |
Κοζύρης, Νεκτάριος |
el |
heal.committeeMemberName |
Κοζύρης, Νεκτάριος |
el |
heal.committeeMemberName |
Γκούμας, Γεώργιος |
el |
heal.committeeMemberName |
Τσουμάκος, Δημήτριος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
56 σ. |
|
heal.fullTextAvailability |
true |
|