HEAL DSpace

Μοντελοποίηση της επίδοσης και του κόστους αλγορίθμων συνένωσης σε εφαρμογές μεγάλου όγκου δεδομένων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Δαμασκηνός, Γεώργιος el
dc.contributor.author Damaskinos, Georgios en
dc.date.accessioned 2016-04-25T09:05:16Z
dc.date.available 2016-04-25T09:05:16Z
dc.date.issued 2016-04-25
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/42434
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.10397
dc.rights Default License
dc.subject Μεγάλου όγκου δεδομένα el
dc.subject Πρόβλεψη επίδοσης el
dc.subject Μοντελοποίηση el
dc.subject Αλγόριθμοι συνένωσης el
dc.subject Εξόρυξη δεδομένων el
dc.subject Big data en
dc.subject Performance prediction en
dc.subject Performance modelling en
dc.subject Join algorithms en
dc.subject ASAP en
dc.subject IReS en
dc.title Μοντελοποίηση της επίδοσης και του κόστους αλγορίθμων συνένωσης σε εφαρμογές μεγάλου όγκου δεδομένων el
dc.title Profiling and cost modelling of join algorithms for big data analytics en
heal.type bachelorThesis
heal.classification Computer science en
heal.classification Big data analytics en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2015-07-14
heal.abstract Η συνεχής εξέλιξη της επιστήμης των υπολογιστών έχει επιφέρει ραγδαία αύξηση στον όγκο των δεδομένων που αποθηκεύονται συνεχώς σε διάφορα data - center. Είναι γεγονός ότι τα δεδομένα αυτά περιέχουν απίστευτα χρήσιμη πληροφορία. Μία άκρως ενδιαφέρουσα και πολυπληθής συλλογή από μηχανές, βιβλιοθήκες και τεχνικές είναι διαθέσιμη για κάθε χρήστη που προσπαθεί να εξαγάγει αυτήν την πληροφορία προκειμένου να καταλήξει σε ενδιαφέροντα συμπεράσματα. Ωστόσο λόγω του μεγέθους και της πολυπλοκότητας αυτής της συλλογής είναι πρακτικά αδύνατο για έναν μέσο χρήστη να επιλέξει τον ιδανικό συνδυασμό, βασισμένος στον σκοπό και στους διαθέσιμους πόρους του. Σκοπός της παρούσας διπλωματικής είναι η συνεισφορά στον σχεδιασμό και στην υλοποίηση ενός συστήματος που θα δέχεται ως είσοδο από έναν χρήστη, ή ένα άλλο σύστημα, τους διαθέσιμους πόρους, το είδος της εργασία, καθώς και το επιθυμητό αποτέλεσμα στα πλαίσια βελτιστοποίησης κάποιας παραμέτρου επίδοσης (π.χ. ελάχιστος χρόνος εκτέλεσης). Στη συνέχεια, βασιζόμενο στα κατάλληλα μοντέλα, θα προτείνει στον χρήστη τον ιδανικό τρόπο εκτέλεσης της εργασίας του. Το είδος της εργασίας του χρήστη στην εν λόγω μελέτη, περιορίζεται σε αλγορίθμους συνένωσης μεγάλου όγκου δεδομένων. Η επίτευξη του σκοπού αυτού γίνεται διαμέσου της υλοποίησης διαφόρων αλγορίθμων συνένωσης σε διάφορες μηχανές. Στην συνέχεια παρακολουθείται το προφίλ της επίδοσης και του κόστους αυτών των αλγορίθμων για διάφορους συνδυασμούς παραμέτρων. Τέλος δημιουργούνται τα κατάλληλα μοντέλα τα οποία το σύστημα θα εξετάζει προκειμένου να πετύχει το ζητούμενο. Η διπλωματική αυτή, αποτελεί τμήμα μίας πλατφόρμας προσαρμοστικής και κλιμακώσιμης ανάλυσης δεδομένων μεγάλου όγκου (ASAP) και πιο συγκεκριμένα ενός ευφυούς δρομολογητή (IReS), ο οποίος είναι υπεύθυνος για την έξυπνη διαχείριση των υπαρχόντων πόρων. el
heal.abstract The continuous development of computer science, has led to a rapid increase in the amount of data that are constantly being stored at various data centers around the world. It is a fact, that this data contains tremendously valuable information. A most interesting assortment of engines, libraries and techniques for big data analytics is available for every user who wish to extract this valuable information in order to reach some potentially groundbreaking results. Nevertheless, due to the size and complexity of this assortment, it is practically impossible for a non expert user to identify the optimal combination, based on his goal and resources. The purpose of this thesis is to contibute to the design and implementation a system that takes as input from a user, or another system, the available resources, the type of the application and the desired result, as far as optimizing various performance metrics is concerned (e.g. minimize execution time). Based on this input, it will be able to derive, according to a collection of models, the optimal way of executing the particular job. This study is focused into join algorithms as far as the application is concerned. This goal is achieved by implementing various join algorithms for various execution engines. The profiling of the cost and performance of these join algorithms for different configurations, is what follows. Finally, taking the results into consideration, the appropriate surrogate models are created in order for the system to be able to achieve it’s functionality. This thesis is part of an adaptive and scalable analytics platform, ASAP. In more detail, it is a part of an intelligen en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.committeeMemberName Τσουμάκος, Δημήτριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 82 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής