HEAL DSpace

Δυναμική δρομολόγηση κατανεμημένων ροών εργασιών με χρήση τεχνικών μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Καραβασίλης, Νικόλαος el
dc.contributor.author Karavasilis, Nikolaos en
dc.date.accessioned 2021-10-22T07:48:57Z
dc.date.available 2021-10-22T07:48:57Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/53985
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21683
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Apache spark en
dc.subject Apache flink en
dc.subject Apache beam en
dc.subject Benchmark en
dc.subject Random forest en
dc.title Δυναμική δρομολόγηση κατανεμημένων ροών εργασιών με χρήση τεχνικών μηχανικής μάθησης el
heal.type bachelorThesis
heal.classification Machine learning el
heal.classification Big data el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-07-23
heal.abstract Η ορολογία Big Data αναφέρεται σε δεδομένα που περιέχουν μεγαλύτερη ποικιλία, φτάνοντας σε αυξανόμενους όγκους και με μεγαλύτερη ταχύτητα. Με απλά λόγια, τα Big Data είναι μεγαλύτερα, πιο πολύπλοκα σύνολα δεδομένων, ειδικά από νέες πηγές δεδομένων. Αυτά τα σύνολα δεδομένων είναι τόσο ογκώδη που το παραδοσιακό λογισμικό επεξεργασίας δεδομένων δεν μπορεί να τα διαχειριστεί. Αλλά αυτοί οι τεράστιοι όγκοι δεδομένων μπορούν να χρησιμοποιηθούν για την αντιμετώπιση επιχειρηματικών προβλημάτων που δεν θα μπορούσαν να αντιμετωπιστούν πριν. Στην σημερινή εποχή η έντονη παρουσία των Big Data στις περισσότετες επιχειρήσεις, έχει οδηγήσει στην δημιουργία πολυάριθμων συστημάτων επεξεργασίας δεδομένων. Ωστόσο, η μεταφορά από ένα τέτοιο σύστημα σε ένα άλλο, π.χ. για λόγους απόδοσης, απαιτεί την τροποποίηση ή ακόμα και την δημιουργία νέων εφαρμογών, προκειμένου να καλύπτουν τις προϋποθέσεις της νέας τεχνολογίας. Η τεχνολογία Apache Beam επιλύει αυτό το πρόβλημα, επιτρέποντας στο χρήστη να δημιουργήσει ένα πρόγραμμα και να το εκτελέσει στα συστήματα επεξεργασίας δεδομένων που υποστηρίζει. Ωστόσο, τις περισσότερες φορές ο χρήστης δεν γνωρίζει ποιο σύστημα είναι το πιο αποδοτικό για τα δεδομένα του. Σκοπός της παρούσας διπλωματικής εργασίας, είναι η δημιουργία ενός αλγορίθμου μηχανικής μάθησης, ο οποίος θα μπορεί να προβλέπει το βέλτιστο σύστημα ανάλογα με τα δεδομένα του χρήστη. Πριν την δημιουργία του αλγορίθμου, γίνεται ένα benchmark για μελέτη της απόδοσης των συστημάτων για μια συγκεκριμένη μορφολογία δεδομένων και για ένα συγκεκριμένο είδος επεξεργασίας. Για το λόγο αυτό, δημιουργήσαμε αρχεία με δεδομένα από διακριτές κατανομές αριθμών και ένα πρόγραμμα σύμφωνα με το Apache Beam που υπολογίζει την συχνότητα εμφάνισης των δεδομένων. ́Υστερα, επιλέξαμε ένα υπολογιστικό σύστημα που ανήκει στο εργαστήριο CSLab του Ε.Μ.Π., στο οποίο εγκαταστήσαμε τις τεχνολογίες Apache Spark και Apache Flink. Τροφοδοτήσαμε κάθε αρχείο σε κάθε σύστημα με την βοήθεια του Apache Kafka προσομοιώνοντας την περίπτωση streaming. Με αυτόν τον τρόπο αναλύσαμε την απόδοση των συστημάτων επεξεργασίας ανάλογα με την μορφολογία των δεδομένων και με τα αποτελέσματα που λάβαμε εκπαιδεύσαμε τον αλγόριθμο Random Forest. Τέλος παραθέτουμε τα συμπεράσματα που μπορούν να προκύψουν μέσα απ ́ την παραπάνω διαδικασία, καθώς και ιδέες ή προτάσεις βελτίωσης της απόδοσης των εφαρμογών μελλοντικά. el
heal.abstract The definition of big data is data that contains greater variety, arriving in increasing volumes and with more velocity. Put simply, big data is larger, more complex data sets, especially from new data sources. These data sets are so voluminous that traditional data processing software just can’t manage them. But these massive volumes of data can be used to address business problems you wouldn’t have been able to tackle before. Nowadays, the strong presence of Big Data in most companies, has led to the creation of numerous data processing systems. However, the transition from one such system to another, e.g. for performance reasons, requires modification or even the creation of new applications in order to meet the requirements of the new technology. Apache Beam solves this problem by allowing the user to create a program and run it on the data processing systems it supports. However, most of the time the user does not know which system is the most efficient for his data. The purpose of this dissertation is to create a machine learning algorithm, which will be able to predict the optimal system based on user data. Before creating the algorithm, a benchmark study is performed of the performance of the systems for a specific data morphology and for a specific type of processing operation. To accomplish that, we created files with data from distinct number distributions and a program according to Apache Beam that calculates the frequency of occurrence of data. Next, we selected a computer system belonging to CSlab located in NTUA, n which we installed the Apache Spark and Apache Flink technologies. We fed each file to each system with the help of Apache Kafka simulating the streaming phenomenon. In this way we analyzed the performance of the processing systems according to the morphology of the data and with the results we obtained we trained the Random Forest algorithm. Finally, we present all of the conclusions that can be extracted from the above procedure, as well as ideas or propositions for future performance optimization. en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.committeeMemberName Πνευματικάτος, Διονύσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 57 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα