HEAL DSpace

Τεχνικές συμπίεσης για την ανάλυση δεδομένων μεγάλης κλίμακας

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κυριτσάς, Γεώργιος el
dc.contributor.author Kyritsas, Georgios en
dc.date.accessioned 2021-07-28T09:07:30Z
dc.date.available 2021-07-28T09:07:30Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/53714
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21412
dc.rights Default License
dc.subject Big Data en
dc.subject Ρυθμός παραγωγής δεδομένων el
dc.subject In Memory Databases en
dc.subject Data Compression en
dc.subject Apache Spark en
dc.subject Apache Parquet en
dc.subject Κατανεμημένα συστήματα el
dc.subject Συστήματα βασισμένα στην κύρια μνήμη (IMDBs) el
dc.subject Επεξεργασία δεδομένων κατά στήλη el
dc.subject Συμπίεση δεδομένων el
dc.title Τεχνικές συμπίεσης για την ανάλυση δεδομένων μεγάλης κλίμακας el
heal.type bachelorThesis
heal.classification Επιστήμη υπολογιστών el
heal.classification Computer science en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-09-18
heal.abstract Στις μέρες μας ο ρυθμός παραγωγής δεδομένων αυξάνεται με γοργούς ρυθμούς, ξεπερνώντας κατά πολύ το ρυθμό αύξησης της υπολογιστικής ισχύος. Η αξιοποίηση αυτού του όγκου δεδομένων μπορεί να οδηγήσει σε βαθύτερη κατανόηση συμπεριφορών και συστημάτων, όπως για παράδειγμα της λειτουργίας των ανθρώπινων κυττάρων ή των κινήσεων του χρηματιστηρίου. Μια ευρέως διαδεδομένη λύση για την επεξεργασία μεγάλου όγκου δεδομένων είναι αυτή των κατανεμημένων συστημάτων, δηλαδή ενός συνόλου διασυνδεδεμένων υπολογιστών, οι οποίοι λειτουργούν σαν ένα ενιαίο υπολογιστικό σύστημα αυξημένων δυνατοτήτων. Μια άλλη λύση που κερδίζει συνεχώς έδαφος είναι η χρήση συστημάτων που χρησιμοποιούν την κύρια μνήμη για την επεξεργασία των δεδομένων.Καθώς η κύρια μνήμη είναι πολύ ταχύτερη από το δίσκο, τα συστήματα αυτά μπορούν να επιτύχουν τάξεις μεγέθους καλύτερες επιδόσεις σε σχέση με τα συμβατικά. Το πρόβλημα είναι ότι η χωρητικότητα της κύριας μνήμης είναι κατά πολύ μικρότερη από αυτή ενός δίσκου.Σκοπός της παρούσας διπλωματικής είναι να εξετάσουμε τη χρήση της συμπίεσης στον τομέα της ανάλυσης δεδομένωνμεγάλης κλίμακας. Εξετάζουμε τους τρόπους με τουςοποίουςμπορούμε να συμπιέσουμε δεδομένα, ώστε να χωρέσουν στη μνήμη, καθώς και την επίδραση της συμπίεσης στην απόδοση του συστήματος. Έχοντας τα δεδομένα στην κύρια μνήμη, εξαλείφεταιένα σημαντικόκομμάτι καθυστέρησης, αυτό της μεταφοράς δεδομένων από το δίσκο. Προκειμένου να εξετάσουμε αυτή τη προσέγγιση, δημιουργήσαμε το hybridcolumnar, ένα σύστημα συμπίεσης δεδομένων και εκτέλεσης ερωτημάτων απευθείας στη μνήμη, χωρίς να έχει προηγηθεί αποσυμπίεση τους. Στο σύστημα αυτό υλοποιήσαμε διάφορες τεχνικές συμπίεσης με σκοπό να μελετήσουμε τη συμπεριφορά τους, τόσο σε χώρο όσο και σε χρόνο, ανάλογα με τα χαρακτηριστικά τουσυνόλου δεδομένων.Επίσης συγκρίναμε το σύστημα που υλοποιήσαμε, με ένα από τα κυριότερα και ευρέως χρησιμοποιούμενα συστήματα στο χώρο της ανάλυσης δεδομένων, το Parquet. el
heal.abstract The growth of data being created every year far outpaces the advancements in computing performance and the disparity between them is expected to grow. By analyzing and exploiting the vast amount of data, new insight on systems and behaviors, such as the inner workings of human cells or stock market movements can be gained. Distributed systems are an effective and popular solution for taming the vast amount of data produced. A distributed system is composed of a set of common computers, acting as a single computer with combined computing and storage capacity. Another option that is gaining ground lately is the use of in-memory databases (IMDBs), which use main memory (RAM) as the primary means of data storage. As RAM is much faster than spinning and even solid-state disks, these systems achieve performance orders of magnitude greater than disk-based systems. The downside of this approach is that the capacity of system memory is orders of magnitude smaller than the capacity of a hard disk.The purpose of this thesis is to evaluate the use of data compression in large scale data processing. We examine ways for data to be compressed in order to fit in main memory and the impact of compression on system performance. Having data reside in main memory, a big bottleneck is eliminated, that of data movement between memory and disk. In order to evaluate this approach, we created hybrid columnar, a system that stores and queries data directly in memory, without prior decompression. In this system we implemented various compression schemes in order to evaluate their performance regarding both time and space, depending on the characteristics of the dataset. We also compare the system we created with Apache Parquet, one of the most established compressed data formats in the field of large-scale data processing. en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.committeeMemberName Τσουμάκος, Δημήτριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 98 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής