HEAL DSpace

High-performace data analytics with ray

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Γεωργίου, Χαρίδημος el
dc.contributor.author Georgiou, Charidimos en
dc.date.accessioned 2025-01-17T09:45:21Z
dc.date.available 2025-01-17T09:45:21Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60835
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28531
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Ray en
dc.subject Apache Spark en
dc.subject Distributed Computing en
dc.subject Machine Learning en
dc.subject Data Analytics el
dc.title High-performace data analytics with ray en
heal.type bachelorThesis
heal.classification Ανάλυση Δεδομένων el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-23
heal.abstract The increasing demand for the development of efficient processing and analyzing tools, can be attributed to the significant role that Big Data analysis and Machine Learning have acquired in our days across various fields. In order for complex computations to be effectively performed, and vast amounts of data to be handled adequately and lead to the extraction of meaningful insights, the need for distributed computing frameworks with such capabilities has emerged. Through the development frameworks, such as Ray, the computational demands of Big Data analytics and ML tasks are addressed, due to a certain set of capabilities they provide. Ray is enriched with APIs that parallelize Python code, and can therefore be characterized as a powerful tool regarding distributed computing. The objective of this thesis is to analyze Ray’s performance on various applications, delving into ETL operations, graph processing, distributed ML training, and hyperparameter tuning. Apache Spark is another similar framework. Being widely used today and recognized for its powerful data-processing properties and extensive library support, Spark’s performance is used as a point of reference in this work. The experiment was carried out on a cluster setup, taking into consideration various parameters including the time of execution, CPU time, as well as memory usage throughout different data sizes and node configurations. According to the results, it was demonstrated that Spark is superior to Ray regarding ETL and graph operations since it comprises a more mature ecosystem and exhibits efficient memory usage. It was nevertheless observed that Ray was outperforming Spark as far as ML training and hyperparameter tuning were involved, which showcases its significant parallel processing capabilities. en
heal.abstract Η αυξανόμενη ζήτηση για την ανάπτυξη αποτελεσματικών εργαλείων επεξεργασίας και ανάλυσης μπορεί να αποδοθεί στον σημαντικό ρόλο που έχουν αποκτήσει στις μέρες μας η ανάλυση μεγάλων όγκων δεδομένων και η μηχανική μάθηση σε διάφορους τομείς. Προκειμένου να γίνεται αποτελεσματικά η εκτέλεση πολύπλοκων υπολο- γισμών και η διαχείριση τεραστίων όγκων δεδομένων που οδηγούν στην εξαγωγή ουσιαστικών συμπερασμάτων, προέκυψε η ανάγκη για υπολογιστικά πλαίσια κατανεμημένων υπολογισμών υψηλών δυνατοτήτων. Μέσω της ανάπτυξης πλαισίων, όπως το Ray, και των δυνατοτήτων που αυτά παρέχουν, οι υπολογιστικές απαιτήσεις της ανάλυσης μεγάλων δεδομένων και των εργασιών μηχανικής μάθησης καθίστανται αντιμετωπίσιμες. Το Ray, εμπλουτισμένο με APIs που παραλληλοποιούν κώδικα της Python και όχι μόνο, αποτελεί ένα ισχυρό εργαλείο όσον αφορά τον κατανεμημένο υπολογισμό για τους χρήστες της προγραμματιστικής αυτής γλώσσας. Σκοπός της εργασίας είναι η ανάλυση της απόδοσης του Ray σε διαφόρων ειδών εφαρμογές, εμβαθύνοντας σε λειτουργίες ETL, στην επεξεργασία γράφων και στην κατανεμημένη εκπαίδευση και εύρεση βέλτιστων υπερ- παραμέτρων μοντέλων μηχανικής μάθησης. Ως μέτρο σύγκρισης χρησιμοποιήθηκε το Apache Spark, ένα από τα πιο διαδεδομένα πλαίσια υπολογισμών σε κατανεμημένα περιβάλλοντα σήμερα, αναγνωρισμένο για τις δυνατότητές του στην επεξεργασία δεδομένων και την εκτεταμένη υποστήριξη βιβλιοθηκών. Στα πειράματα ελήφθησαν υπόψη διάφορες παράμετροι, όπως ο χρόνος εκτέλεσης, ο συνολικός χρόνος CPU, καθώς και οι απαιτήσεις μνήμης των 2 πλαισίων για διάφορα μεγέθη συνόλων δεδομένων και διατάξεις του cluster που αξιοποιήθηκε. Σύμφωνα με τις παρατηρήσεις, το Spark υπερτερεί του Ray όσον αφορά τις λειτουργίες ETL και την ανάλυση γράφων, καθώς αποτελεί ένα ωριμότερο οικοσύστημα με ποικίλες βελτιστοποιήσεις και χρησιμοποιεί την μνήμη του συστήματος αποδοτικότερα. Ωστόσο, παρατηρήθηκε ότι το Ray υπερέχει του Spark στις εργασίες της μηχανικής μάθησης, γεγονός που αναδεικνύει τις σημαντικές δυνατότητες παράλληλης επεξεργασίας του. el
heal.advisorName Τσουμάκος, Δημήτριος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Γκούμας, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων el
heal.academicPublisherID ntua
heal.numberOfPages 86 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα