HEAL DSpace

Multimodal recurrent independent mechanisms and modality-specific dynamic learning rate adjustment using meta-learning

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Bartsokas, Theodoros en
dc.contributor.author Μπαρτσώκας, Θεόδωρος el
dc.date.accessioned 2025-04-09T09:10:10Z
dc.date.available 2025-04-09T09:10:10Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/61657
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29353
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Τεχνητή Νοημοσύνη el
dc.subject Μηχανική Μάθηση el
dc.subject Πολυτροπική Μάθηση el
dc.subject Πολυεργασιακή Μάθηση el
dc.subject Μετα-Μάθηση el
dc.subject Artificial Intelligence en
dc.subject Machine Learning en
dc.subject Multimodal Learning en
dc.subject Multitask Learning en
dc.subject Meta-Learning en
dc.title Multimodal recurrent independent mechanisms and modality-specific dynamic learning rate adjustment using meta-learning en
heal.type masterThesis
heal.classification Artificial Intelligence en
heal.classification Τεχνητή Νοημοσύνη el
heal.language el
heal.language en
heal.access campus
heal.recordProvider ntua el
heal.publicationDate 2024-10-18
heal.abstract Multimodal learning and modular neural networks are two promising subfields of machine learning that draw inspiration from the human brain's structure and information processing, along with dynamics of the environment. However, the combination of these two subfields is relatively unexplored in the current literature. Moreover, optimizing multimodal models typically involves applying a global learning rate to all modalities, which can lead to suboptimal optimization overall, as different modalities may converge in varying timescales. This thesis makes two key contributions for addressing these issues. First, three core extensions of Recurrent Independent Mechanisms (RIMs) for multimodal learning are explored, each addressing both early and late fusion techniques. Moreover, an extension of RIMs for multitask learning is proposed. These extensions establish cross-modal interactions and create multiple input combinations. As a result, diverse dynamics are generated within the models. Second, two meta-learning algorithms are proposed: one utilizing first-order gradients and the other employing second-order gradients, each designed to dynamically adjust the learning rates for each modality during training. The experimental results on the CMU-MOSEI dataset show that the proposed multimodal and multitask extensions of RIMs outperform both their corresponding vanilla extensions and established multimodal baselines, across a wide range of configurations. Notably, a binary accuracy of 81.88\% is achieved, representing an improvement of between 0.6\% and 3.38\% compared to all baselines in this metric. Additionally, the incorporation of meta-learning algorithms yields significant performance improvements, with the best model achieving a Mean Absolute Error (MAE) of 56.64. This represents a reduction of 1.83 compared to its counterpart that does not utilize meta-learning, and a reduction of between 0.62 and 0.93 relative to established baselines. These findings suggest that the integration of modular neural network into multimodal and multitask learning can be a fruitful approach for creating novel architectures with high capabilities, inspired by real-world phenomena. At last, incorporating meta-learning into the optimization process of multimodal and multitask models to dynamically modality-specific learning rates proves to a highly impactful training strategy that adapts to the unique characteristics of each modality. en
heal.abstract Η πολυτροπική μάθηση (multimodal learning) και τα αρθρωτά νευρωνικά δίκτυα (modular neural networks) είναι δύο υποσχόμενα υποπεδία της μηχανικής μάθησης που αντλούν έμπνευση από τη δομή του ανθρώπινου εγκεφάλου και τον τρόπο που επεξεργάζεται πληροϕορίες, καθώς και από δυναμικές που υπάρχουν στο περιβάλλον. Ωστόσο, ο συνδυασμός αυτών των δύο υποπεδίων παραμένει σχετικά ανεξερεύνητος στη τρέχουσα βιβλιογραφία. Επιπλέον, η βελτιστοποίηση πολυτροπικών μοντέλων συνήθως περιλαμβάνει την εφαρμογή ενός καθολικού ρυθμού εκμάθησης (learning rate) για όλες τις τροπικότητες (modalities), κάτι που μπορεί να οδηγήσει σε υποβέλτιστη βελτιστοποίηση συνολικά, καθώς οι διαφορετικές τροπικότητες ενδεχομένως να συγκλίνουν με διαφορετικούς ρυθμούς. Η παρούσα διπλωματική εργασία κάνει δύο βασικές συνεισφορές για την αντιμετώπιση αυτών των ζητημάτων. Πρώτον, εξετάζονται τρεις βασικές επεκτάσεις των Αναδρομικών Ανεξάρτητων Μηχανισμών (Recurrent Independent Mechanisms - RIMs) για πολυτροπική μάθηση, καθεμία από τις οποίες λαμβάνει υπόψη τόσο τις τεχνικές πρώιμης (early) όσο και καθυστερημένης (late) συγχώνευσης (fusion). Επιπλέον, προτείνεται μια επέκταση των RIMs για πολυεργασιακή μάθηση (multitask learning). Αυτές οι επεκτάσεις εγκαθιδρύουν αλληλεπιδράσεις μεταξύ των τροπικοτήτων και δημιουργούν πολλαπλούς συνδυασμούς εισόδων. Αυτό έχει ως αποτέλεσμα να δημιουργούνται ποικίλες δυναμικές εντός των μοντέλων. Δεύτερον, προτείνονται δύο αλγόριθμοι μετα-μάθησης (meta-learning) όπου ο ένας χρησιμοποιεί παραγώγους πρώτης τάξης και ο άλλος δεύτερης τάξης, με σκοπό να προσαρμόζουν δυναμικά τους ρυθμούς εκμάθησης κάθε τροπικότητας κατά τη διάρκεια της εκπαίδευσης. Τα πειραματικά αποτελέσματα πάνω στο σύνολο δεδομένων CMU-MOSEI δείχνουν ότι οι προτεινόμενες πολυτροπικές και πολυεργασιακές επεκτάσεις των RIMs έχουν καλύτερη επίδοση τόσο σε σχέση με τις αντίστοιχες απλούστερες επεκτάσεις τους, όσο και σε σχέση με καθιερωμένα πολυτροπικά μοντέλα (established multimodal baselines), σε ένα ευρύ φάσμα παραμετροποιήσεων. Συγκεκριμένα, επιτυγχάνεται 81.88% στη μετρική της δυαδικής ευστοχίας (binary accuracy) η οποία αποτελεί βελτίωση μεταξύ 0.6% και 3.38% σε σύγκριση με καθιερωμένα πολυτροπικά μοντέλα. Επιπλέον, οι αλγόριθμοι μετα-μάθησης παρέχουν σημαντικές βελτιώσεις στην απόδοση των μοντέλων στα οποία ενσωματώθηκαν, με το καλύτερο να επιτυγχάνει Μέσο Απόλυτο Σφάλμα (Mean Absolute Error - MAE) 56.64. Αυτή η τιμή αντιπροσωπεύει μείωση κατά 1.83 σε σύγκριση με το ίδιο μοντέλο που δεν χρησιμοποιεί μετα-μάθηση, και μείωση από 0.62 έως 0.93 σε σύγκριση με τα καθιερωμένα πολυτροπικά μοντέλα. Τα ευρήματα αυτά υποδηλώνουν ότι η ενσωμάτωση αρθρωτών νευρωνικών δικτύων στην πολυτροπική και πολυεργασιακή μάθηση μπορεί να αποτελέσει μια γόνιμη προσέγγιση για τη δημιουργία καινοτόμων αρχιτεκτονικών με υψηλές δυνατότητες, οι οποίες είναι εμπνευσμένες από φαινόμενα του πραγματικού κόσμου. Τέλος, η ενσωμάτωση της μετα-μάθησης στη διαδικασία βελτιστοποίησης των πολυτροπικών και πολυεργασιακών μοντέλων, προκειμένου να ρυθμιστούν δυναμικά οι ρυθμοί εκμάθησης για κάθε τροπικότητα, αποδεικνύεται μια ιδιαίτερα ισχυρή στρατηγική εκπαίδευσης οι οποία προσαρμόζεται στα μοναδικά χαρακτηριστικά κάθε τροπικότητας. el
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.committeeMemberName Tzafestas, Constantinos en
heal.committeeMemberName Rontogiannis, Athanasios en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 162 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα