HEAL DSpace

Υλοποίηση αρχιτεκτονικής ανάλυσης ροών δεδομένων σε πραγματικό χρόνο με υποστήριξη μεθόδων αποθήκευσης στοιχείων και εξόρυξης δεδομένων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Χατζηκυριάκος, Γιώργος el
dc.contributor.author Chatzikyriakos, Giorgos en
dc.date.accessioned 2017-11-24T12:24:26Z
dc.date.available 2017-11-24T12:24:26Z
dc.date.issued 2017-11-24
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/45957
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14959
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Εξόρυξη δεδομένων el
dc.subject Εξωτερική ανάθεση el
dc.subject Αποθήκευση Δεδομένων el
dc.subject Επεξεργασία πληροφορίας el
dc.subject Ροή δεδομένων el
dc.subject Apache HBase en
dc.subject Apache Spark en
dc.subject Apache Kafka en
dc.subject NoSQL en
dc.subject Outsourcing en
dc.subject Stream processing en
dc.subject Batch processing en
dc.title Υλοποίηση αρχιτεκτονικής ανάλυσης ροών δεδομένων σε πραγματικό χρόνο με υποστήριξη μεθόδων αποθήκευσης στοιχείων και εξόρυξης δεδομένων el
dc.title Real time data streaming architecture with data warehousing and data mining capabilities en
heal.type bachelorThesis
heal.classification Εξόρυξη δεδομένων el
heal.classification Data mining en
heal.classification Big data en
heal.classificationURI http://data.seab.gr/concepts/0f0670698e94133323eface3389eba3b6b1f304c
heal.classificationURI http://data.seab.gr/concepts/0f0670698e94133323eface3389eba3b6b1f304c
heal.classificationURI http://id.loc.gov/authorities/subjects/sh2012003227
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-09-11
heal.abstract Την σημερινή εποχή του Διαδικτύου και της πληροφορίας η παραγωγή δεδομένων είναι πιο μεγάλη από ποτέ και θα συνεχίζει να αυξάνεται με εκθετικούς ρυθμούς. Οι αλλαγές αυτές έχουν δημιουργήσει τον δημοφιλή όρο «Big Data», για την περιγραφή αυτών των μεγάλων ποσοτήτων πληροφορίας. Ένα πολύ σημαντικό χαρακτηριστικό αυτών των δεδομένων είναι η ταχύτητα με την οποία παράγονται καθώς και το γεγονός ότι υπάρχουν πια πολλές πηγές πληροφορίας που δεν υπήρχαν στο κοντινό παρελθόν όπως για παράδειγμα τα μέσα κοινωνικής δικτύωσης. Κάθε επιχείρηση, οργανισμός αλλά και κάθε ξεχωριστός άνθρωπος αποτελεί μία πηγή αναπαραγωγής δεδομένων. Η ανάλυση αυτών των πληροφοριών είναι κρίσιμη και απαιτεί ιδιαίτερη τεχνογνωσία, πράγμα που οδηγεί τους οργανισμούς να αναθέτουν συχνά την εργασία αυτή σε τρίτους (Outsourcing). Tα τελευταία χρόνια γίνεται λόγος για επεξεργασία σε πραγματικό χρόνο, δηλαδή την ώρα παραγωγής της πληροφορίας. Με αυτό τον τρόπο μπορούν να εξάγονται συμπεράσματα όσο το δυνατόν πιο γρήγορα και οι οργανισμοί μπορούν να προβλέψουν γεγονότα ή να έχουν ανταγωνιστικό πλεονέκτημα. Γι’ αυτό στην παρούσα εργασία καλούμαστε να σχεδιάσουμε μία αρχιτεκτονική για την ανάλυση ροών δεδομένων σε πραγματικό χρόνο που όμως ταυτόχρονα θα προσφέρει και δυνατότητες αποθήκευσης στοιχείων καθώς και επεξεργασία σε παρτίδες. Οπότε, θα μελετήσουμε τεχνολογίες που αφορούν την επεξεργασία ροών πληροφορίας, όπως η Apache Kafka, καθώς και άλλες τεχνολογίες που ειδικεύονται στην επεξεργασία και αποθήκευση Big Data, όπως η Apache HBase και το Apache Spark. Στη πορεία θα φτιάξουμε και θα επεξηγήσουμε στοιχεία της αρχιτεκτονικής που θα συνδέει αυτά τα εργαλεία δημιουργώντας έτσι το τελικό σύστημα. Θα αναλύσουμε επίσης ορισμένα χαρακτηριστικά που αφορούν το σενάριο χρήσης που επιλέξαμε για την πειραματική αξιολόγηση της πλατφόρμας. Στο τέλος θα προσομοιώσουμε κάποιες ροές δεδομένων για να ελέγξουμε πώς δουλεύει το σύστημα και για να πάρουμε μετρήσεις που θα οδηγήσουν στην τελική αξιολόγηση. el
heal.abstract In the current era, of the Internet and information, the production rate of data is greater than ever and it will continue to increase exponentially. These changes have created the popular term “Big Data”, to describe these huge quantities of data. A significant characteristic of this data is how fast they are being produced and also the fact that there are many information sources that there were not around here in the recent past, like, for example, the social networks. Every company, organization and even every individual is an information source. The processing of this information is crucial and demands the necessary know-how, which leads these organizations to often assign this task to a third party (Outsourcing). In the last few years, a very hot topic is real time processing, that is at the time the data is created. That way, conclusions can be made as soon as possible and the organizations can foresee events or have competitive advantage. That’s why in this particular thesis we will design an architecture for real time stream processing that will also offer data warehousing and batch processing capabilities. So, we will study technologies created for data stream processing, like Apache Kafka, and other technologies specializing in the storage and processing of Big Data, like Apache HBase and Apache Spark. Next, we will create and explain certain things about the architecture that will connect all these tools creating the final system. We will, also, analyze some specifications about the use case that we chose to evaluate our platform. And at the end we are going to simulate some data streams to see how the system works and get metrics that will lead to the final assessments. en
heal.advisorName Βαρβαρίγου, Θεοδώρα el
heal.committeeMemberName Βαρβαρίγου, Θεοδώρα el
heal.committeeMemberName Βαρβαρίγος, Εμμανουήλ el
heal.committeeMemberName Παπαβασιλείου, Συμεών el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής el
heal.academicPublisherID ntua
heal.numberOfPages 133 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα