Multimodal recurrent independent mechanisms and modality-specific dynamic learning rate adjustment using meta-learning

Bartsokas, Theodoros; Μπαρτσώκας, Θεόδωρος

dc.contributor.author	Bartsokas, Theodoros	en
dc.contributor.author	Μπαρτσώκας, Θεόδωρος	el
dc.date.accessioned	2025-04-09T09:10:10Z
dc.date.available	2025-04-09T09:10:10Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/61657
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.29353
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Τεχνητή Νοημοσύνη	el
dc.subject	Μηχανική Μάθηση	el
dc.subject	Πολυτροπική Μάθηση	el
dc.subject	Πολυεργασιακή Μάθηση	el
dc.subject	Μετα-Μάθηση	el
dc.subject	Artificial Intelligence	en
dc.subject	Machine Learning	en
dc.subject	Multimodal Learning	en
dc.subject	Multitask Learning	en
dc.subject	Meta-Learning	en
dc.title	Multimodal recurrent independent mechanisms and modality-specific dynamic learning rate adjustment using meta-learning	en
heal.type	masterThesis
heal.classification	Artificial Intelligence	en
heal.classification	Τεχνητή Νοημοσύνη	el
heal.language	el
heal.language	en
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2024-10-18
heal.abstract	Multimodal learning and modular neural networks are two promising subfields of machine learning that draw inspiration from the human brain's structure and information processing, along with dynamics of the environment. However, the combination of these two subfields is relatively unexplored in the current literature. Moreover, optimizing multimodal models typically involves applying a global learning rate to all modalities, which can lead to suboptimal optimization overall, as different modalities may converge in varying timescales. This thesis makes two key contributions for addressing these issues. First, three core extensions of Recurrent Independent Mechanisms (RIMs) for multimodal learning are explored, each addressing both early and late fusion techniques. Moreover, an extension of RIMs for multitask learning is proposed. These extensions establish cross-modal interactions and create multiple input combinations. As a result, diverse dynamics are generated within the models. Second, two meta-learning algorithms are proposed: one utilizing first-order gradients and the other employing second-order gradients, each designed to dynamically adjust the learning rates for each modality during training. The experimental results on the CMU-MOSEI dataset show that the proposed multimodal and multitask extensions of RIMs outperform both their corresponding vanilla extensions and established multimodal baselines, across a wide range of configurations. Notably, a binary accuracy of 81.88\% is achieved, representing an improvement of between 0.6\% and 3.38\% compared to all baselines in this metric. Additionally, the incorporation of meta-learning algorithms yields significant performance improvements, with the best model achieving a Mean Absolute Error (MAE) of 56.64. This represents a reduction of 1.83 compared to its counterpart that does not utilize meta-learning, and a reduction of between 0.62 and 0.93 relative to established baselines. These findings suggest that the integration of modular neural network into multimodal and multitask learning can be a fruitful approach for creating novel architectures with high capabilities, inspired by real-world phenomena. At last, incorporating meta-learning into the optimization process of multimodal and multitask models to dynamically modality-specific learning rates proves to a highly impactful training strategy that adapts to the unique characteristics of each modality.	en
heal.abstract	Η πολυτροπική μάθηση (multimodal learning) και τα αρθρωτά νευρωνικά δίκτυα (modular neural networks) είναι δύο υποσχόμενα υποπεδία της μηχανικής μάθησης που αντλούν έμπνευση από τη δομή του ανθρώπινου εγκεφάλου και τον τρόπο που επεξεργάζεται πληροϕορίες, καθώς και από δυναμικές που υπάρχουν στο περιβάλλον. Ωστόσο, ο συνδυασμός αυτών των δύο υποπεδίων παραμένει σχετικά ανεξερεύνητος στη τρέχουσα βιβλιογραφία. Επιπλέον, η βελτιστοποίηση πολυτροπικών μοντέλων συνήθως περιλαμβάνει την εφαρμογή ενός καθολικού ρυθμού εκμάθησης (learning rate) για όλες τις τροπικότητες (modalities), κάτι που μπορεί να οδηγήσει σε υποβέλτιστη βελτιστοποίηση συνολικά, καθώς οι διαφορετικές τροπικότητες ενδεχομένως να συγκλίνουν με διαφορετικούς ρυθμούς. Η παρούσα διπλωματική εργασία κάνει δύο βασικές συνεισφορές για την αντιμετώπιση αυτών των ζητημάτων. Πρώτον, εξετάζονται τρεις βασικές επεκτάσεις των Αναδρομικών Ανεξάρτητων Μηχανισμών (Recurrent Independent Mechanisms - RIMs) για πολυτροπική μάθηση, καθεμία από τις οποίες λαμβάνει υπόψη τόσο τις τεχνικές πρώιμης (early) όσο και καθυστερημένης (late) συγχώνευσης (fusion). Επιπλέον, προτείνεται μια επέκταση των RIMs για πολυεργασιακή μάθηση (multitask learning). Αυτές οι επεκτάσεις εγκαθιδρύουν αλληλεπιδράσεις μεταξύ των τροπικοτήτων και δημιουργούν πολλαπλούς συνδυασμούς εισόδων. Αυτό έχει ως αποτέλεσμα να δημιουργούνται ποικίλες δυναμικές εντός των μοντέλων. Δεύτερον, προτείνονται δύο αλγόριθμοι μετα-μάθησης (meta-learning) όπου ο ένας χρησιμοποιεί παραγώγους πρώτης τάξης και ο άλλος δεύτερης τάξης, με σκοπό να προσαρμόζουν δυναμικά τους ρυθμούς εκμάθησης κάθε τροπικότητας κατά τη διάρκεια της εκπαίδευσης. Τα πειραματικά αποτελέσματα πάνω στο σύνολο δεδομένων CMU-MOSEI δείχνουν ότι οι προτεινόμενες πολυτροπικές και πολυεργασιακές επεκτάσεις των RIMs έχουν καλύτερη επίδοση τόσο σε σχέση με τις αντίστοιχες απλούστερες επεκτάσεις τους, όσο και σε σχέση με καθιερωμένα πολυτροπικά μοντέλα (established multimodal baselines), σε ένα ευρύ φάσμα παραμετροποιήσεων. Συγκεκριμένα, επιτυγχάνεται 81.88% στη μετρική της δυαδικής ευστοχίας (binary accuracy) η οποία αποτελεί βελτίωση μεταξύ 0.6% και 3.38% σε σύγκριση με καθιερωμένα πολυτροπικά μοντέλα. Επιπλέον, οι αλγόριθμοι μετα-μάθησης παρέχουν σημαντικές βελτιώσεις στην απόδοση των μοντέλων στα οποία ενσωματώθηκαν, με το καλύτερο να επιτυγχάνει Μέσο Απόλυτο Σφάλμα (Mean Absolute Error - MAE) 56.64. Αυτή η τιμή αντιπροσωπεύει μείωση κατά 1.83 σε σύγκριση με το ίδιο μοντέλο που δεν χρησιμοποιεί μετα-μάθηση, και μείωση από 0.62 έως 0.93 σε σύγκριση με τα καθιερωμένα πολυτροπικά μοντέλα. Τα ευρήματα αυτά υποδηλώνουν ότι η ενσωμάτωση αρθρωτών νευρωνικών δικτύων στην πολυτροπική και πολυεργασιακή μάθηση μπορεί να αποτελέσει μια γόνιμη προσέγγιση για τη δημιουργία καινοτόμων αρχιτεκτονικών με υψηλές δυνατότητες, οι οποίες είναι εμπνευσμένες από φαινόμενα του πραγματικού κόσμου. Τέλος, η ενσωμάτωση της μετα-μάθησης στη διαδικασία βελτιστοποίησης των πολυτροπικών και πολυεργασιακών μοντέλων, προκειμένου να ρυθμιστούν δυναμικά οι ρυθμοί εκμάθησης για κάθε τροπικότητα, αποδεικνύεται μια ιδιαίτερα ισχυρή στρατηγική εκπαίδευσης οι οποία προσαρμόζεται στα μοναδικά χαρακτηριστικά κάθε τροπικότητας.	el
heal.advisorName	Ποταμιάνος, Αλέξανδρος	el
heal.advisorName	Potamianos, Alexandros	en
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.committeeMemberName	Tzafestas, Constantinos	en
heal.committeeMemberName	Rontogiannis, Athanasios	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	162 σ.	el
heal.fullTextAvailability	false