Containerization vs Bare Metal: distributed computing 
performance using Apache Spark

Τσαρμποπούλου, Μαργαρίτα Ελένη

dc.contributor.author	Τσαρμποπούλου, Μαργαρίτα Ελένη
dc.date.accessioned	2024-09-04T09:02:39Z
dc.date.available	2024-09-04T09:02:39Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/60124
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27820
dc.rights	Default License
dc.subject	μηχανική μάθηση	el
dc.subject	κατανεμημένος υπολογισμός	el
dc.subject	ανίχνευση περιστατικών	el
dc.subject	κλιμακωσιμότητα	el
dc.subject	χρήση πόρων	el
dc.subject	dashboard	en
dc.subject	Kubernetes	en
dc.subject	bare metal	en
dc.subject	Apache Spark	en
dc.subject	containerization	en
dc.title	Containerization vs Bare Metal: distributed computing performance using Apache Spark	en
dc.contributor.department	Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.type	bachelorThesis
heal.classification	Distributed systems	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-03
heal.abstract	Αυτή η έρευνα εξερευνά τις συμβιβαστικές λύσεις απόδοσης μεταξύ των περιβαλλόντων που βασίζονται σε container και τα περιβάλλοντα bare metal για την εκτέλεση εφαρμογών Apache Spark, εστιάζοντας συγκεκριμένα στα dashboard ανίχνευσης τροχαίων περιστατικών. Ο κατανεμημένος υπολογισμός, ένα θεμελιώδες στοιχείο των σύγχρονων εφαρμογών που βασίζονται σε δεδομένα, παρουσιάζει ένα φάσμα επιλογών ανάπτυξης, κάθε μία με διακριτά πλεονεκτήματα και προκλήσεις. Αυτή η έρευνα εμβαθύνει στις θεωρητικές βάσεις του κατανεμημένου υπολογισμού, του containerization και των υλοποιήσεων bare metal, προετοιμάζοντας το έδαφος για μια συγκριτική ανάλυση που βασίζεται σε μετρήσεις απόδοσης, κλιμακωσιμότητας, χρήσης πόρων και λειτουργικής πολυπλοκότητας. Διεξήχθησαν μια σειρά πειραμάτων χρησιμοποιώντας το Apache Spark για την εκτέλεση μοντέλων μηχανικής μάθησης τόσο σε περιβάλλοντα container όσο και σε περιβάλλοντα bare metal. Τα κριτήρια αξιολόγησης σχεδιάστηκαν έτσι ώστε να αντανακλούν τις απαιτήσεις των εφαρμογών πολλαπλών κατόχων στον πραγματικό κόσμο, τονίζοντας την ανταπόκριση και την κλιμακωσιμότητα των dashboard οπτικοποίησης που είναι κρίσιμα για την ανίχνευση περιστατικών. Τα πειραματικά αποτελέσματα αποκαλύπτουν ότι, ενώ τα περιβάλλοντα με container προσφέρουν βελτιωμένη κλιμακωσιμότητα, ευελιξία στην ανάπτυξη και μειωμένη λειτουργική πολυπλοκότητα, φέρουν ελάχιστη επιβάρυνση απόδοσης σε σύγκριση με τις διαμορφώσεις bare metal. Αντίθετα, τα περιβάλλοντα bare metal επιδεικνύουν ελαφρώς ανώτερη υπολογιστική αποδοτικότητα, αποδίδοντας στην άμεση πρόσβαση στο υλικό, παρόλο που αυτό συνεπάγεται μειωμένη ευελιξία και έλλειψη ανοχής σε σφάλματα. Η έρευνα καταλήγει ότι η επιλογή μεταξύ containerization και bare metal για τις αναπτύξεις Apache Spark εξαρτάται από τις συγκεκριμένες απαιτήσεις της εφαρμογής και το πλαίσιο χρήσης της. Τα περιβάλλοντα με container προτιμώνται για την προσαρμοστικότητά τους σε σενάρια βασισμένα στο cloud και πολλαπλών κατόχων, όπου η κλιμακωσιμότητα και η λειτουργική αποδοτικότητα είναι καθοριστικής σημασίας. Οι διαμορφώσεις bare metal, ωστόσο, μπορεί να προτιμώνται σε πλαίσια που απαιτούν τη μέγιστη υπολογιστική απόδοση με σταθερά χαρακτηριστικά φορτίου. Αυτή η έρευνα συνεισφέρει στην ευρύτερη κατανόηση των αρχιτεκτονικών κατανεμημένου υπολογισμού, προσφέροντας πληροφορίες για τις επιπτώσεις τους στον σχεδιασμό και τη βελτιστοποίηση υψηλής απόδοσης, κλιμακώσιμων dashboard για διάφορους ενδιαφερόμενους και περιπτώσεις χρήσης.	el
heal.abstract	This research explores the performance trade-offs between containerized and bare metal environments for running Apache Spark applications, specifically focusing on incident detection dashboards. Distributed computing, a cornerstone of modern data-intensive applications, presents a spectrum of deployment options, each with distinct advantages and challenges. This research delves into the theoretical underpinnings of distributed computing, containerization, and bare metal implementations, setting the stage for a comparative analysis grounded in performance metrics, scalability, resource utilization, and operational complexity. A series of experiments were conducted using Apache Spark to execute machine learning algorithms within both containerized and bare metal settings. The evaluation criteria were designed to reflect real-world multi-tenancy application demands, emphasizing the responsiveness and scalability of visualization dashboards crucial for incident detection. The experimental results reveal that while containerized environments offer enhanced scalability, deployment flexibility, and reduced operational complexity, they incur a minimal performance overhead compared to bare metal setups. Conversely, bare metal environments demonstrate marginally superior computational efficiency, attributable to direct hardware access, albeit at the cost of reduced flexibility and lack of fault tolerance. The research concludes that the choice between containerization and bare metal for Apache Spark deployments hinges on specific application requirements and context. Containerized environments are favored for their adaptability in cloud-based, multi-tenant scenarios, where scalability and operational efficiency are paramount. Bare metal deployments, however, may be preferred in contexts demanding maximal computational performance with stable workload characteristics. This research contributes to the broader understanding of distributed computing architectures, offering insights into their implications for the design and optimization of high-performance, scalable dashboards for diverse stakeholders and use cases.	en
heal.advisorName	Γκούμας, Γεώργιος
heal.committeeMemberName	Κοζύρης, Νεκτάριος
heal.committeeMemberName	Πνευματικάτος, Διονύσιος
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	96
heal.fullTextAvailability	false