HEAL DSpace

Μελέτη Απόδοσης Συστημάτων Lakehouse

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Σιδέρης, Κωνσταντίνος el
dc.contributor.author Sideris, Konstantinos en
dc.date.accessioned 2025-11-13T07:46:59Z
dc.date.available 2025-11-13T07:46:59Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62858
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30554
dc.rights Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ *
dc.subject Μεγάλα Δεδομένα el
dc.subject Big Data en
dc.subject Apache Hudi en
dc.subject Data Lakes en
dc.subject Batch Processing en
dc.subject Stream Processing en
dc.subject Delta Lake en
dc.subject Λίμνες Δεδομένων el
dc.subject Επεξεργασία Ροής el
dc.subject Επεξεργασία κατά παρτίδες el
dc.title Μελέτη Απόδοσης Συστημάτων Lakehouse el
dc.title Data Lakehouse Performance Study en
heal.type bachelorThesis
heal.classification Επιστήμη Υπολογιστών el
heal.classification Computer Science en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-06-23
heal.abstract Καθώς οργανισμοί υιοθετούν ολοένα και περισσότερο αρχιτεκτονικές lakehouse για την ανάλυση μεγάλων δεδομένων, είναι απαραίτητο να κατανοήσουμε την συμπεριφορά τους, καθώς και τους εν- δεχόμενους συμβιβασμούς που συνεπάγεται η χρήση τους. Σκοπός της παρούσας εργασίας είναι η πα- ρουσίαση μιας ολοκληρωμένης μελέτης της απόδοσης δύο διαδεδομένων συστημάτων lakehouse, του Delta Lake και του Apache Hudi, με έμφαση τόσο στην επεξεργασία κατά παρτίδες (batch processing) όσο και στην επεξεργασία ροής (stream processing). Μέσω της διαδικασίας αξιολόγησης, θα συγκρί- νουμε τα Delta Lake και Hudi έναντι τυπικών υλοποιήσεων λιμνών δεδομένων, οι οποίες αποτε- λούνται από ένα απλό επίπεδο αποθήκευσης το οποίο επερωτάται από μια μηχανή ανάλυσης, στην περίπτωσή μας, το HDFS και το Apache Spark. Τα lakehouses αποτελούν επεκτάσεις των λιμνών δε- δομένων, συνεπώς αξιοποιούν τα θετικά χαρακτηριστικά τους, ενώ ταυτόχρονα εισάγουν νέες δυνατό- τητες, όπως ACID συναλλαγές, επιβολή και εξέλιξη σχήματος (schema enforcement and evolution), καθώς και μηχανισμούς διακυβέρνησης δεδομένων, με σκοπό την αντιμετώπιση των υφιστάμενων προβλημάτων των λιμνών δεδομένων. Παράλληλα, ενσωματώνουν βελτιστοποιήσεις όπως ταξινό- μηση, data skipping και partition pruning, με σκοπό την περαιτέρω βελτίωση τους. Στην παρούσα μελέτη, παρουσιάζονται τα παραπάνω χαρακτηριστικά και, μέσω μετρήσεων απόδοσης, αξιολογείται το κατά πόσο βελτιώνουν την απόδοση ή, στην περίπτωση χειρότερης απόδοσης, εάν οι πρόσθετες λειτουργικότητες δικαιολογούν τη χρήση των lakehouses. el
heal.abstract As organisations increasingly adopt lakehouse architectures to support big data analytics, understand- ing the performance trade-offs of utilising enhanced storage layers instead of standard data lake ar- chitectures is essential. This masters dissertation aims to present a comprehensive performance eval- uation of two leading data lakehouse solutions, Delta Lake and Apache Hudi, focusing on both batch and stream processing workloads. Through the benchmarking process, we compare Delta Lake and Hudi against standard data lake implementations, which consist of a simple storage layer queried by an analytics engine, in this case, HDFS and Apache Spark. Being built on top of data lakes, lakehouses leverage their strengths, while simultaneously, introducing new features, such as ACID transactions, schema enforcement, schema evolution and data governance mechanisms, to address the issues data lakes face. Additionally, they introduce optimisations, such as indexing, data skipping, and parti- tion pruning, to further improve them. Throughout this thesis, we present these features and through benchmarks, evaluate how they improve performance and whether the added functionalities justify the use of lakehouses, even in cases where they may underperform. en
heal.advisorName Tsoumakos, Dimitrios
heal.committeeMemberName Tsoumakos, Dimitrios
heal.committeeMemberName Koziris, Nectarios
heal.committeeMemberName Goumas, Georgios
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. el
heal.academicPublisherID ntua
heal.numberOfPages 81
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα