| dc.contributor.author | Σιδέρης, Κωνσταντίνος
|
el |
| dc.contributor.author | Sideris, Konstantinos
|
en |
| dc.date.accessioned | 2025-11-13T07:46:59Z | |
| dc.date.available | 2025-11-13T07:46:59Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62858 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30554 | |
| dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ | * |
| dc.subject | Μεγάλα Δεδομένα | el |
| dc.subject | Big Data | en |
| dc.subject | Apache Hudi | en |
| dc.subject | Data Lakes | en |
| dc.subject | Batch Processing | en |
| dc.subject | Stream Processing | en |
| dc.subject | Delta Lake | en |
| dc.subject | Λίμνες Δεδομένων | el |
| dc.subject | Επεξεργασία Ροής | el |
| dc.subject | Επεξεργασία κατά παρτίδες | el |
| dc.title | Μελέτη Απόδοσης Συστημάτων Lakehouse | el |
| dc.title | Data Lakehouse Performance Study | en |
| heal.type | bachelorThesis | |
| heal.classification | Επιστήμη Υπολογιστών | el |
| heal.classification | Computer Science | en |
| heal.language | el | |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-06-23 | |
| heal.abstract | Καθώς οργανισμοί υιοθετούν ολοένα και περισσότερο αρχιτεκτονικές lakehouse για την ανάλυση μεγάλων δεδομένων, είναι απαραίτητο να κατανοήσουμε την συμπεριφορά τους, καθώς και τους εν- δεχόμενους συμβιβασμούς που συνεπάγεται η χρήση τους. Σκοπός της παρούσας εργασίας είναι η πα- ρουσίαση μιας ολοκληρωμένης μελέτης της απόδοσης δύο διαδεδομένων συστημάτων lakehouse, του Delta Lake και του Apache Hudi, με έμφαση τόσο στην επεξεργασία κατά παρτίδες (batch processing) όσο και στην επεξεργασία ροής (stream processing). Μέσω της διαδικασίας αξιολόγησης, θα συγκρί- νουμε τα Delta Lake και Hudi έναντι τυπικών υλοποιήσεων λιμνών δεδομένων, οι οποίες αποτε- λούνται από ένα απλό επίπεδο αποθήκευσης το οποίο επερωτάται από μια μηχανή ανάλυσης, στην περίπτωσή μας, το HDFS και το Apache Spark. Τα lakehouses αποτελούν επεκτάσεις των λιμνών δε- δομένων, συνεπώς αξιοποιούν τα θετικά χαρακτηριστικά τους, ενώ ταυτόχρονα εισάγουν νέες δυνατό- τητες, όπως ACID συναλλαγές, επιβολή και εξέλιξη σχήματος (schema enforcement and evolution), καθώς και μηχανισμούς διακυβέρνησης δεδομένων, με σκοπό την αντιμετώπιση των υφιστάμενων προβλημάτων των λιμνών δεδομένων. Παράλληλα, ενσωματώνουν βελτιστοποιήσεις όπως ταξινό- μηση, data skipping και partition pruning, με σκοπό την περαιτέρω βελτίωση τους. Στην παρούσα μελέτη, παρουσιάζονται τα παραπάνω χαρακτηριστικά και, μέσω μετρήσεων απόδοσης, αξιολογείται το κατά πόσο βελτιώνουν την απόδοση ή, στην περίπτωση χειρότερης απόδοσης, εάν οι πρόσθετες λειτουργικότητες δικαιολογούν τη χρήση των lakehouses. | el |
| heal.abstract | As organisations increasingly adopt lakehouse architectures to support big data analytics, understand- ing the performance trade-offs of utilising enhanced storage layers instead of standard data lake ar- chitectures is essential. This masters dissertation aims to present a comprehensive performance eval- uation of two leading data lakehouse solutions, Delta Lake and Apache Hudi, focusing on both batch and stream processing workloads. Through the benchmarking process, we compare Delta Lake and Hudi against standard data lake implementations, which consist of a simple storage layer queried by an analytics engine, in this case, HDFS and Apache Spark. Being built on top of data lakes, lakehouses leverage their strengths, while simultaneously, introducing new features, such as ACID transactions, schema enforcement, schema evolution and data governance mechanisms, to address the issues data lakes face. Additionally, they introduce optimisations, such as indexing, data skipping, and parti- tion pruning, to further improve them. Throughout this thesis, we present these features and through benchmarks, evaluate how they improve performance and whether the added functionalities justify the use of lakehouses, even in cases where they may underperform. | en |
| heal.advisorName | Tsoumakos, Dimitrios
|
|
| heal.committeeMemberName | Tsoumakos, Dimitrios
|
|
| heal.committeeMemberName | Koziris, Nectarios
|
|
| heal.committeeMemberName | Goumas, Georgios
|
|
| heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. | el |
| heal.academicPublisherID | ntua | |
| heal.numberOfPages | 81 | |
| heal.fullTextAvailability | false |
The following license files are associated with this item: