Συγκριτική αξιολόγηση κατανεμημένων συστημάτων βαθιάς μηχανικής μάθησης σε περιβάλλον υπολογιστικού νέφους

Κρίσιλιας, Ανδρέας; Krisilias, Andreas

dc.contributor.author	Κρίσιλιας, Ανδρέας	el
dc.contributor.author	Krisilias, Andreas	en
dc.date.accessioned	2021-07-20T09:34:39Z
dc.date.available	2021-07-20T09:34:39Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/53659
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.21357
dc.rights	Default License
dc.subject	Deep learning	en
dc.subject	Distributed learning	en
dc.subject	Mxnet	en
dc.subject	Pytorch	en
dc.subject	Tensorflow	en
dc.subject	Κατανεμημένη εκπαίδευση	el
dc.subject	Βαθιά νευρωνική μάθηση	el
dc.subject	Κατηγοριοποίηση εικόνας	el
dc.subject	Υνελικτικά νευρωνικά δίκτυα	el
dc.subject	Διακομιστής παραμέτρων	el
dc.title	Συγκριτική αξιολόγηση κατανεμημένων συστημάτων βαθιάς μηχανικής μάθησης σε περιβάλλον υπολογιστικού νέφους	el
heal.type	bachelorThesis
heal.classification	Computer Science	en
heal.classification	Πληροφορική	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2021-07-08
heal.abstract	Η δημοτικότητα της βαθιάς μηχανικής μάθησης έχει εκτοξευτεί την τελευταία δεκαετία κυρίως σε εφαρμογές επεξεργασίας ήχου, εικόνας ή φυσικής γλώσσας. Σε συνδυασμό με τον ολοένα αυξανόμενο όγκο των δεδομένων έχει γίνει επιτακτική ανάγκη η εκπαίδευση νευρωνικών δικτύων με κατανεμημένο τρόπο από ομάδες (clusters) υπολογιστικών πόρων. Παράλληλα, έχουν εκδοθεί πολλαπλές βιβλιοθήκες/συστήματα για την διευκόλυνση υλοποίησης και εκπαίδευσης βαθιών νευρωνικών δικτύων. Θα ήταν χρήσιμο, συνεπώς, για τον χρήστη να μπορεί να διακρίνει τις διαφορές μεταξύ των διαφορετικών συστημάτων τόσο σε απόδοση όσο και σε ευχρηστία, ώστε να μπορεί να διαλέξει το κατάλληλο σύμφωνα με τις δικές του ανάγκες. Στην παρούσα εργασία εξετάζονται τρία από τα πιο διάσημα συστήματα βαθιάς μηχανικής μάθησης που υποστηρίζουν εκπαίδευση σε κατανεμημένο περιβάλλον, τα TensorFlow, PyTorch και MXNet. Αξιολογούνται συγκριτικά πάνω σε cluster τριών μηχανημάτων αποτελούμενα από επεξεργαστές Intel. Τα πειράματα απαρτίζονται από έξι συνδυασμούς μεταξύ τεσσάρων διαφορετικών νευρωνικών δικτύων και δύο συνόλων δεδομένων. Από τα αποτελέσματα φαίνεται ότι τα PyTorch και MXNet είναι πολύ πιο αποδοτικά όταν τρέχουν σε επεξεργαστές Intel λόγω των ειδικά βελτιστοποιημένων τελεστών που χρησιμοποιούν, ενώ το TensorFlow μπορεί να μειώσει το χρόνο φόρτωσης δεδομένων ιδίως σε μικρά δίκτυα κάνοντας χρήση της cache. Ακόμα, γίνεται εντοπισμός αργών υλοποιήσεων μεμονωμένων τελεστών σε όλα τα συστήματα. Το MXNet φαίνεται να υπερέχει ελαφρώς στην ταχύτητα κατανεμημένης επικοινωνίας, παρότι αυτό δεν επηρεάζει ιδιαίτερα το τελικό αποτέλεσμα.	el
heal.abstract	The popularity of deep learning has skyrocketed in the last decade mainly in audio, video or natural language processing applications. In combination with the increasing volume of data, it has become imperative to train neural networks in a distributed way using clusters of computational resources. At the same time, multiple libraries/systems have been published to facilitate the implementation and training of deep neural networks. Thus, it would be useful for the user to be able to distinguish the differences between the different systems in both performance and usability, so that they can choose the right one according to their own needs. This thesis examines three of the most popular deep learning systems that support distributed training, TensorFlow, PyTorch and MXNet. They are comparatively evaluated on a cluster of three machines consisting of Intel processors. The experiments consist of six combinations between four different neural networks and two datasets. The results show that PyTorch and MXNet are much more efficient when running on Intel processors due to the specially optimized operators they use, while TensorFlow can reduce data load time especially on small networks by using cache. Also, slow implementations of individual operators are detected in all systems. MXNet seems to outperform slightly in the speed of distributed communication, although this does not significantly affect the end result.	en
heal.advisorName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Γκούμας, Γεώργιος	el
heal.committeeMemberName	Κωσταντίνου, Ιωάννης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	113 σ.	el
heal.fullTextAvailability	false