dc.contributor.author | Καραβασίλης, Νικόλαος | el |
dc.contributor.author | Karavasilis, Nikolaos | en |
dc.date.accessioned | 2021-10-22T07:48:57Z | |
dc.date.available | 2021-10-22T07:48:57Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/53985 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.21683 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Apache spark | en |
dc.subject | Apache flink | en |
dc.subject | Apache beam | en |
dc.subject | Benchmark | en |
dc.subject | Random forest | en |
dc.title | Δυναμική δρομολόγηση κατανεμημένων ροών εργασιών με χρήση τεχνικών μηχανικής μάθησης | el |
heal.type | bachelorThesis | |
heal.classification | Machine learning | el |
heal.classification | Big data | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2021-07-23 | |
heal.abstract | Η ορολογία Big Data αναφέρεται σε δεδομένα που περιέχουν μεγαλύτερη ποικιλία, φτάνοντας σε αυξανόμενους όγκους και με μεγαλύτερη ταχύτητα. Με απλά λόγια, τα Big Data είναι μεγαλύτερα, πιο πολύπλοκα σύνολα δεδομένων, ειδικά από νέες πηγές δεδομένων. Αυτά τα σύνολα δεδομένων είναι τόσο ογκώδη που το παραδοσιακό λογισμικό επεξεργασίας δεδομένων δεν μπορεί να τα διαχειριστεί. Αλλά αυτοί οι τεράστιοι όγκοι δεδομένων μπορούν να χρησιμοποιηθούν για την αντιμετώπιση επιχειρηματικών προβλημάτων που δεν θα μπορούσαν να αντιμετωπιστούν πριν. Στην σημερινή εποχή η έντονη παρουσία των Big Data στις περισσότετες επιχειρήσεις, έχει οδηγήσει στην δημιουργία πολυάριθμων συστημάτων επεξεργασίας δεδομένων. Ωστόσο, η μεταφορά από ένα τέτοιο σύστημα σε ένα άλλο, π.χ. για λόγους απόδοσης, απαιτεί την τροποποίηση ή ακόμα και την δημιουργία νέων εφαρμογών, προκειμένου να καλύπτουν τις προϋποθέσεις της νέας τεχνολογίας. Η τεχνολογία Apache Beam επιλύει αυτό το πρόβλημα, επιτρέποντας στο χρήστη να δημιουργήσει ένα πρόγραμμα και να το εκτελέσει στα συστήματα επεξεργασίας δεδομένων που υποστηρίζει. Ωστόσο, τις περισσότερες φορές ο χρήστης δεν γνωρίζει ποιο σύστημα είναι το πιο αποδοτικό για τα δεδομένα του. Σκοπός της παρούσας διπλωματικής εργασίας, είναι η δημιουργία ενός αλγορίθμου μηχανικής μάθησης, ο οποίος θα μπορεί να προβλέπει το βέλτιστο σύστημα ανάλογα με τα δεδομένα του χρήστη. Πριν την δημιουργία του αλγορίθμου, γίνεται ένα benchmark για μελέτη της απόδοσης των συστημάτων για μια συγκεκριμένη μορφολογία δεδομένων και για ένα συγκεκριμένο είδος επεξεργασίας. Για το λόγο αυτό, δημιουργήσαμε αρχεία με δεδομένα από διακριτές κατανομές αριθμών και ένα πρόγραμμα σύμφωνα με το Apache Beam που υπολογίζει την συχνότητα εμφάνισης των δεδομένων. ́Υστερα, επιλέξαμε ένα υπολογιστικό σύστημα που ανήκει στο εργαστήριο CSLab του Ε.Μ.Π., στο οποίο εγκαταστήσαμε τις τεχνολογίες Apache Spark και Apache Flink. Τροφοδοτήσαμε κάθε αρχείο σε κάθε σύστημα με την βοήθεια του Apache Kafka προσομοιώνοντας την περίπτωση streaming. Με αυτόν τον τρόπο αναλύσαμε την απόδοση των συστημάτων επεξεργασίας ανάλογα με την μορφολογία των δεδομένων και με τα αποτελέσματα που λάβαμε εκπαιδεύσαμε τον αλγόριθμο Random Forest. Τέλος παραθέτουμε τα συμπεράσματα που μπορούν να προκύψουν μέσα απ ́ την παραπάνω διαδικασία, καθώς και ιδέες ή προτάσεις βελτίωσης της απόδοσης των εφαρμογών μελλοντικά. | el |
heal.abstract | The definition of big data is data that contains greater variety, arriving in increasing volumes and with more velocity. Put simply, big data is larger, more complex data sets, especially from new data sources. These data sets are so voluminous that traditional data processing software just can’t manage them. But these massive volumes of data can be used to address business problems you wouldn’t have been able to tackle before. Nowadays, the strong presence of Big Data in most companies, has led to the creation of numerous data processing systems. However, the transition from one such system to another, e.g. for performance reasons, requires modification or even the creation of new applications in order to meet the requirements of the new technology. Apache Beam solves this problem by allowing the user to create a program and run it on the data processing systems it supports. However, most of the time the user does not know which system is the most efficient for his data. The purpose of this dissertation is to create a machine learning algorithm, which will be able to predict the optimal system based on user data. Before creating the algorithm, a benchmark study is performed of the performance of the systems for a specific data morphology and for a specific type of processing operation. To accomplish that, we created files with data from distinct number distributions and a program according to Apache Beam that calculates the frequency of occurrence of data. Next, we selected a computer system belonging to CSlab located in NTUA, n which we installed the Apache Spark and Apache Flink technologies. We fed each file to each system with the help of Apache Kafka simulating the streaming phenomenon. In this way we analyzed the performance of the processing systems according to the morphology of the data and with the results we obtained we trained the Random Forest algorithm. Finally, we present all of the conclusions that can be extracted from the above procedure, as well as ideas or propositions for future performance optimization. | en |
heal.advisorName | Κοζύρης, Νεκτάριος | el |
heal.committeeMemberName | Κοζύρης, Νεκτάριος | el |
heal.committeeMemberName | Γκούμας, Γεώργιος | el |
heal.committeeMemberName | Πνευματικάτος, Διονύσιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 57 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: