dc.contributor.author |
Δαμασκηνός, Γεώργιος
|
el |
dc.contributor.author |
Damaskinos, Georgios
|
en |
dc.date.accessioned |
2016-04-25T09:05:16Z |
|
dc.date.available |
2016-04-25T09:05:16Z |
|
dc.date.issued |
2016-04-25 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/42434 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.10397 |
|
dc.rights |
Default License |
|
dc.subject |
Μεγάλου όγκου δεδομένα |
el |
dc.subject |
Πρόβλεψη επίδοσης |
el |
dc.subject |
Μοντελοποίηση |
el |
dc.subject |
Αλγόριθμοι συνένωσης |
el |
dc.subject |
Εξόρυξη δεδομένων |
el |
dc.subject |
Big data |
en |
dc.subject |
Performance prediction |
en |
dc.subject |
Performance modelling |
en |
dc.subject |
Join algorithms |
en |
dc.subject |
ASAP |
en |
dc.subject |
IReS |
en |
dc.title |
Μοντελοποίηση της επίδοσης και του κόστους
αλγορίθμων συνένωσης σε εφαρμογές μεγάλου όγκου
δεδομένων |
el |
dc.title |
Profiling and cost modelling of join algorithms for big data analytics |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Computer science |
en |
heal.classification |
Big data analytics |
en |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2015-07-14 |
|
heal.abstract |
Η συνεχής εξέλιξη της επιστήμης των υπολογιστών έχει επιφέρει ραγδαία αύξηση στον όγκο
των δεδομένων που αποθηκεύονται συνεχώς σε διάφορα data - center. Είναι γεγονός ότι τα
δεδομένα αυτά περιέχουν απίστευτα χρήσιμη πληροφορία. Μία άκρως ενδιαφέρουσα και πολυπληθής συλλογή από μηχανές, βιβλιοθήκες και τεχνικές είναι διαθέσιμη για κάθε χρήστη
που προσπαθεί να εξαγάγει αυτήν την πληροφορία προκειμένου να καταλήξει σε ενδιαφέροντα συμπεράσματα. Ωστόσο λόγω του μεγέθους και της πολυπλοκότητας αυτής της συλλογής είναι πρακτικά αδύνατο για έναν μέσο χρήστη να επιλέξει τον ιδανικό συνδυασμό,
βασισμένος στον σκοπό και στους διαθέσιμους πόρους του.
Σκοπός της παρούσας διπλωματικής είναι η συνεισφορά στον σχεδιασμό και στην υλοποίηση ενός συστήματος που θα δέχεται ως είσοδο από έναν χρήστη, ή ένα άλλο σύστημα, τους
διαθέσιμους πόρους, το είδος της εργασία, καθώς και το επιθυμητό αποτέλεσμα στα πλαίσια βελτιστοποίησης κάποιας παραμέτρου επίδοσης (π.χ. ελάχιστος χρόνος εκτέλεσης). Στη
συνέχεια, βασιζόμενο στα κατάλληλα μοντέλα, θα προτείνει στον χρήστη τον ιδανικό τρόπο εκτέλεσης της εργασίας του. Το είδος της εργασίας του χρήστη στην εν λόγω μελέτη,
περιορίζεται σε αλγορίθμους συνένωσης μεγάλου όγκου δεδομένων.
Η επίτευξη του σκοπού αυτού γίνεται διαμέσου της υλοποίησης διαφόρων αλγορίθμων συνένωσης σε διάφορες μηχανές. Στην συνέχεια παρακολουθείται το προφίλ της επίδοσης και του
κόστους αυτών των αλγορίθμων για διάφορους συνδυασμούς παραμέτρων. Τέλος δημιουργούνται τα κατάλληλα μοντέλα τα οποία το σύστημα θα εξετάζει προκειμένου να πετύχει το
ζητούμενο.
Η διπλωματική αυτή, αποτελεί τμήμα μίας πλατφόρμας προσαρμοστικής και κλιμακώσιμης
ανάλυσης δεδομένων μεγάλου όγκου (ASAP) και πιο συγκεκριμένα ενός ευφυούς δρομολογητή (IReS), ο οποίος είναι υπεύθυνος για την έξυπνη διαχείριση των υπαρχόντων πόρων. |
el |
heal.abstract |
The continuous development of computer science, has led to a rapid increase in the amount
of data that are constantly being stored at various data centers around the world. It is a fact,
that this data contains tremendously valuable information. A most interesting assortment of
engines, libraries and techniques for big data analytics is available for every user who wish to
extract this valuable information in order to reach some potentially groundbreaking results.
Nevertheless, due to the size and complexity of this assortment, it is practically impossible
for a non expert user to identify the optimal combination, based on his goal and resources.
The purpose of this thesis is to contibute to the design and implementation a system that takes
as input from a user, or another system, the available resources, the type of the application
and the desired result, as far as optimizing various performance metrics is concerned (e.g.
minimize execution time). Based on this input, it will be able to derive, according to a collection
of models, the optimal way of executing the particular job. This study is focused into
join algorithms as far as the application is concerned.
This goal is achieved by implementing various join algorithms for various execution engines.
The profiling of the cost and performance of these join algorithms for different configurations,
is what follows. Finally, taking the results into consideration, the appropriate surrogate
models are created in order for the system to be able to achieve it’s functionality.
This thesis is part of an adaptive and scalable analytics platform, ASAP. In more detail, it
is a part of an intelligen |
en |
heal.advisorName |
Κοζύρης, Νεκτάριος |
el |
heal.committeeMemberName |
Κοζύρης, Νεκτάριος |
el |
heal.committeeMemberName |
Γκούμας, Γεώργιος |
el |
heal.committeeMemberName |
Τσουμάκος, Δημήτριος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
82 σ. |
el |
heal.fullTextAvailability |
true |
|