Σχεδιασμός middleware για data-intensive εφαρμογές

Χαντζηαλεξίου, Γεώργιος; Chantzialexiou, Georgios

dc.contributor.author	Χαντζηαλεξίου, Γεώργιος	el
dc.contributor.author	Chantzialexiou, Georgios	en
dc.date.accessioned	2018-03-19T10:32:24Z
dc.date.available	2018-03-19T10:32:24Z
dc.date.issued	2018-03-19
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/46718
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.15205
dc.rights	Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/gr/	*
dc.subject	Kmeans	en
dc.subject	Spark	en
dc.subject	Data-intensive	en
dc.subject	Python	en
dc.subject	Apache	en
dc.subject	Συσταδοποίηση	el
dc.subject	Μεγάλα-δεδομένα	el
dc.subject	Κατανεμημένα-συστήματα	el
dc.subject	Σπαρκ	el
dc.subject	Πληροφορική	el
dc.title	Σχεδιασμός middleware για data-intensive εφαρμογές	el
heal.type	bachelorThesis
heal.secondaryTitle	Middleware for data-intensive applications	en
heal.classification	Computer systems	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2017-10-30
heal.abstract	Πλατφόρμες υπολογιστικής υψηλής απόδοσης, όπως οι "supercomputers", έχουν παραδοσιακά σχεδιαστεί για να ικανοποιούν τις απαιτήσεις υπολογισμών των επιστημονικών εφαρμογών. Κατά συνέπεια, έχουν σχεδιαστεί ως καθαροί παραγωγοί και όχι ως καταναλωτές δεδομένων. Το οικοσύστημα της Apache εξελίχθηκε για να ικανοποιήσει τις απαιτήσεις των εφαρμογών επεξεργασίας πολλών δεδομένων και έχει αντιμετωπίσει πολλούς από τους παραδοσιακούς περιορισμούς των πλατφορμών H.P.C. Υπάρχει όμως μια κατηγορία επιστημονικών εφαρμογών που χρειάζονται τις συλλογικές δυνατότητες των παραδοσιακών υπολογιστικών περιβαλλόντων υψηλής απόδοσης και του οικοσυστήματος της Apache. Για παράδειγμα, οι επιστημονικοί τομείς της μοριακής δυναμικής, της γονιδιωματικής και της επιστήμης δικτύων πρέπει να ενώσουν τους παραδοσιακούς υπολογιστές με την ανάλυση Hadoop / Spark. Εξετάζουμε το κρίσιμο ερώτημα σχετικά με τον τρόπο παρουσίασης των δυνατοτήτων και των δύο υπολογιστικών περιβαλλόντων σε τέτοιες επιστημονικές εφαρμογές. Ενώ αυτά τα ερωτήματα χρειάζονται απαντήσεις σε πολλαπλά επίπεδα, σχεδιάσαμε ένα middleware διαχείρισης πόρων που θα μπορούσε να υποστηρίξει τις ανάγκες και των δύο. Προτείνουμε την επέκταση στο Pilot-Abstraction του radical pilot έτσι ώστε να παρέχουμε ένα ενοποιημένο επίπεδο διαχείρισης πόρων. Πρόκειται για ένα σημαντικό βήμα προς τη διαλειτουργική χρήση των οικοσυστημάτων HPC και Apache Spark. Επιτρέπει επίσης στις εφαρμογές να ενσωματώνουν στάδια HPC (π.χ. προσομοιώσεις) στην ανάλυση δεδομένων. Πολλά κέντρα υπερυπολογιστών έχουν αρχίσει να υποστηρίζουν επίσημα τα περιβάλλοντα Hadoop, είτε σε ένα αποκλειστικό περιβάλλον είτε σε υβριδικές αναπτύξεις χρησιμοποιώντας εργαλεία όπως το myHadoop. Αυτό συνήθως περιλαμβάνει πολλές εγγενείς λεπτομέρειες για το περιβάλλον που πρόκειται να χρησιμοποιηθεί και συχνά έχουμε ζητήματα όπως: Πώς να διερευνηθούν οι επιλογές όπως data locality έναντι data movement ; Για το σκοπό αυτό, η πειραματική ανάλυση της απόδοσης είναι απαραίτητη μέσω μιας διαδικασίας παρακολούθησης του συνολικού χρόνου ολοκλήρωσης δύο επιλεγμένων αλγορίθμων και προσεκτικά επιλεγμένου συνόλου δεδομένων. Με αυτά τα αποτελέσματα μπορούμε να κατανοήσουμε την συμπεριφορά του στρώματος πόρων για αλλαγή σε διαφορετικές παραμέτρους απόδοσης των εφαρμογών μας. Στην παρούσα εργασία αποφασίσαμε να μελετήσουμε τον αλγόριθμο k-means που χρησιμοποιείται για την ομαδοποίηση των λειτουργιών δεδομένων και τη μελέτη ενός αλγορίθμου μοριακής δυναμικής, του οποίου το όνομα είναι leaflet finder, χρησιμοποιώντας το radical-pilot και το pilot-Spark. Εφαρμόζουμε και τους δύο αλγορίθμους και τρέχουμε πειράματα για να ανακτήσουμε τη μέτρηση που σχετίζεται με τη χρήση υπολογιστικών πόρων και τον συνολικό χρόνο εκτέλεσης για κάθε δοκιμή. Αναλύουμε τα αποτελέσματα των συμπεριφορών των μετρήσεων που εκτελούνται σε τρεις διαφορετικούς υπέρ-υπολογιστές υψηλής απόδοσης, Stampede, Wrangler και Comet. Χρησιμοποιούμε τα δεδομένα που συλλέγουμε για κάθε μέτρηση και εκτέλεση για να αποδείξουμε την ακρίβεια και τη χρησιμότητα του νέου υπολογιστικού στρώματος. Ελέγξτε την επεκτασιμότητα των αλγορίθμων στην κατανεμημένη έκδοση του a και παρατηρήστε την πιθανή βελτίωση του χρόνου. Τέλος προσπαθούμε να συγκρίνουμε και τα δύο middleware και να σχολιάσουμε την υπεροχή ή όχι της αρχιτεκτονικής του Apache Spark.	el
heal.abstract	High-performance computing platforms such as “supercomputers” have traditionally been designed to meet the compute demands of scientific applications. Consequently, they have been architected as net producers and not consumers of data. The Apache Hadoop ecosystem has evolved to meet the requirements of data processing applications and has addressed many of the traditional limitations of HPC platforms. There exist a class of scientific applications however, that need the collective capabilities of traditional high- performance computing environments and the Apache Hadoop ecosystem. For example, the scientific domains of bio-molecular dynamics, genomics and network science need to couple traditional computing with Hadoop/Spark based analysis. We investigate the critical question of how to present the capabilities of both computing environments to such scientific applications. Whereas this questions needs answers at multiple levels, we designed a resource management middleware that might support the needs of both. We propose extensions to the Pilot-Abstraction of radical-pilot so as to provide a unifying resource management layer. This is an important step towards interoperable use of HPC and Spark. It also allows applications to integrate HPC stages (e. g. simulations) to data analytics. Many supercomputing centers have started to officially support Hadoop environments, either in a dedicated environment or in hybrid deployments using tools such as myHadoop. This typically involves many intrinsic, environment-specific details that need to be mastered, and often swamp conceptual issues like: How to explore runtime trade-offs (data localities vs. data movement)? For this purpose, the experimental analysis of the performance is necessary through a process of tracking the total time of completion of two selected algorithms, and carefully selected dataset. With these results we can understand the behavior of the resource layer for change in different performance parameters of our applications. In the present work we decided to study the k-means algorithm used for clustering data operations, and the study of a molecular dynamics algorithm, whose name is leaflet- finder, using the radical-pilot and radical pilot-spark environments. We implement both algorithms and run experiments to retrieve metric associated with the use of computing resources and time performance of each test execution. We analyze the results of our measurements behaviors executing in three different state of the art High Performance Computers, Stampede, Wrangler and Comet. We use the data collected for each metric and execution to prove the accuracy and the usefulness of the new resource layer. Check the scalability of the algorithms in the distributed version of a and observe probable time improvement. Finally we attempt a comparison of both middlewares that shows us the architecture superiority of Spark.	en
heal.sponsor	Εθνικό Μετσόβιο Πολυτεχνείο - TACC systems - Rutgers University	el
heal.advisorName	Γκούμας, Γεώργιος	el
heal.committeeMemberName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Jha, Shantenu	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	54 σ.	el
heal.fullTextAvailability	true