HEAL DSpace

Containerization vs Bare Metal: distributed computing performance using Apache Spark

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Τσαρμποπούλου, Μαργαρίτα Ελένη
dc.date.accessioned 2024-09-04T09:02:39Z
dc.date.available 2024-09-04T09:02:39Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60124
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.27820
dc.rights Default License
dc.subject μηχανική μάθηση el
dc.subject κατανεμημένος υπολογισμός el
dc.subject ανίχνευση περιστατικών el
dc.subject κλιμακωσιμότητα el
dc.subject χρήση πόρων el
dc.subject dashboard en
dc.subject Kubernetes en
dc.subject bare metal en
dc.subject Apache Spark en
dc.subject containerization en
dc.title Containerization vs Bare Metal: distributed computing performance using Apache Spark en
dc.contributor.department Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.type bachelorThesis
heal.classification Distributed systems el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-03
heal.abstract Αυτή η έρευνα εξερευνά τις συμβιβαστικές λύσεις απόδοσης μεταξύ των περιβαλλόντων που βασίζονται σε container και τα περιβάλλοντα bare metal για την εκτέλεση εφαρμογών Apache Spark, εστιάζοντας συγκεκριμένα στα dashboard ανίχνευσης τροχαίων περιστατικών. Ο κατανεμημένος υπολογισμός, ένα θεμελιώδες στοιχείο των σύγχρονων εφαρμογών που βασίζονται σε δεδομένα, παρουσιάζει ένα φάσμα επιλογών ανάπτυξης, κάθε μία με διακριτά πλεονεκτήματα και προκλήσεις. Αυτή η έρευνα εμβαθύνει στις θεωρητικές βάσεις του κατανεμημένου υπολογισμού, του containerization και των υλοποιήσεων bare metal, προετοιμάζοντας το έδαφος για μια συγκριτική ανάλυση που βασίζεται σε μετρήσεις απόδοσης, κλιμακωσιμότητας, χρήσης πόρων και λειτουργικής πολυπλοκότητας. Διεξήχθησαν μια σειρά πειραμάτων χρησιμοποιώντας το Apache Spark για την εκτέλεση μοντέλων μηχανικής μάθησης τόσο σε περιβάλλοντα container όσο και σε περιβάλλοντα bare metal. Τα κριτήρια αξιολόγησης σχεδιάστηκαν έτσι ώστε να αντανακλούν τις απαιτήσεις των εφαρμογών πολλαπλών κατόχων στον πραγματικό κόσμο, τονίζοντας την ανταπόκριση και την κλιμακωσιμότητα των dashboard οπτικοποίησης που είναι κρίσιμα για την ανίχνευση περιστατικών. Τα πειραματικά αποτελέσματα αποκαλύπτουν ότι, ενώ τα περιβάλλοντα με container προσφέρουν βελτιωμένη κλιμακωσιμότητα, ευελιξία στην ανάπτυξη και μειωμένη λειτουργική πολυπλοκότητα, φέρουν ελάχιστη επιβάρυνση απόδοσης σε σύγκριση με τις διαμορφώσεις bare metal. Αντίθετα, τα περιβάλλοντα bare metal επιδεικνύουν ελαφρώς ανώτερη υπολογιστική αποδοτικότητα, αποδίδοντας στην άμεση πρόσβαση στο υλικό, παρόλο που αυτό συνεπάγεται μειωμένη ευελιξία και έλλειψη ανοχής σε σφάλματα. Η έρευνα καταλήγει ότι η επιλογή μεταξύ containerization και bare metal για τις αναπτύξεις Apache Spark εξαρτάται από τις συγκεκριμένες απαιτήσεις της εφαρμογής και το πλαίσιο χρήσης της. Τα περιβάλλοντα με container προτιμώνται για την προσαρμοστικότητά τους σε σενάρια βασισμένα στο cloud και πολλαπλών κατόχων, όπου η κλιμακωσιμότητα και η λειτουργική αποδοτικότητα είναι καθοριστικής σημασίας. Οι διαμορφώσεις bare metal, ωστόσο, μπορεί να προτιμώνται σε πλαίσια που απαιτούν τη μέγιστη υπολογιστική απόδοση με σταθερά χαρακτηριστικά φορτίου. Αυτή η έρευνα συνεισφέρει στην ευρύτερη κατανόηση των αρχιτεκτονικών κατανεμημένου υπολογισμού, προσφέροντας πληροφορίες για τις επιπτώσεις τους στον σχεδιασμό και τη βελτιστοποίηση υψηλής απόδοσης, κλιμακώσιμων dashboard για διάφορους ενδιαφερόμενους και περιπτώσεις χρήσης. el
heal.abstract This research explores the performance trade-offs between containerized and bare metal environments for running Apache Spark applications, specifically focusing on incident detection dashboards. Distributed computing, a cornerstone of modern data-intensive applications, presents a spectrum of deployment options, each with distinct advantages and challenges. This research delves into the theoretical underpinnings of distributed computing, containerization, and bare metal implementations, setting the stage for a comparative analysis grounded in performance metrics, scalability, resource utilization, and operational complexity. A series of experiments were conducted using Apache Spark to execute machine learning algorithms within both containerized and bare metal settings. The evaluation criteria were designed to reflect real-world multi-tenancy application demands, emphasizing the responsiveness and scalability of visualization dashboards crucial for incident detection. The experimental results reveal that while containerized environments offer enhanced scalability, deployment flexibility, and reduced operational complexity, they incur a minimal performance overhead compared to bare metal setups. Conversely, bare metal environments demonstrate marginally superior computational efficiency, attributable to direct hardware access, albeit at the cost of reduced flexibility and lack of fault tolerance. The research concludes that the choice between containerization and bare metal for Apache Spark deployments hinges on specific application requirements and context. Containerized environments are favored for their adaptability in cloud-based, multi-tenant scenarios, where scalability and operational efficiency are paramount. Bare metal deployments, however, may be preferred in contexts demanding maximal computational performance with stable workload characteristics. This research contributes to the broader understanding of distributed computing architectures, offering insights into their implications for the design and optimization of high-performance, scalable dashboards for diverse stakeholders and use cases. en
heal.advisorName Γκούμας, Γεώργιος
heal.committeeMemberName Κοζύρης, Νεκτάριος
heal.committeeMemberName Πνευματικάτος, Διονύσιος
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 96
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής