HEAL DSpace

Investigating optimization techniques for multimodal neural networks

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Καφφέζα, Ιωάννα el
dc.contributor.author Kaffeza, Ioanna en
dc.date.accessioned 2025-07-30T11:05:48Z
dc.date.available 2025-07-30T11:05:48Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62231
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29927
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μηχανική Μάθηση el
dc.subject Πολυτροπικά Νευρωνικά ∆ίκτυα el
dc.subject Ανάλυση Συναισθήματος el
dc.subject Αλγόριθμος Ανάστροφης Διάδοσης el
dc.subject Ανισόρροπη Εκμάθηση el
dc.subject Τεχνικές Βελτιστοποίησης el
dc.subject Machine Learning en
dc.subject Multimodal Neural Networks en
dc.subject Sentiment Analysis en
dc.subject Backpropagation Algorithm en
dc.subject Imbalanced Learning en
dc.subject Optimization Techniques en
dc.title Investigating optimization techniques for multimodal neural networks en
heal.type bachelorThesis
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-02-25
heal.abstract Η πολυτροπική μάθηση έχει προσελκύσει σημαντικό ενδιαφέρον στην ανάλυση συναισθήματος, ωστόσο, τα πολυτροπικά μοντέλα συχνά εμφανίζουν υποδεέστερη απόδοση σε σύγκριση με τα μονοτροπικά—ένα αντιφατικό φαινόμενο. Οι ανισόρροπες δυναμικές μάθησης, όπου ορισμένες μορφές δεδομένων κυριαρχούν στη διαδικασία εκπαίδευσης, ενώ άλλες παραμένουν αναξιοποίητες, οδηγούν σε μη βέλτιστη απόδοση του μοντέλου. Η παρούσα διπλωματική διερευνά την επίδραση των τεχνικών βελτιστοποίησης σε πολυτροπικά νευρωνικά δίκτυα, εστιάζοντας στο πώς διαφορετικές στρατηγικές επηρεάζουν τις ανισόρροπες δυναμικές μάθησης στην ανάλυση συναισθήματος. Αξιολογούμε δύο κατηγορίες τεχνικών βελτιστοποίησης στα σύνολα δεδομένων CMU-MOSI και CMU-MOSEI. Οι τεχνικές OGM-GE, AGM εφαρμόζουν άμεσες προσαρμογές των παραγώγων κατά την ανάστροφη διάδοση, στοχεύοντας σε ισορροπημένη συνεισφορά από κάθε μορφή δεδομένων. Αντίθετα, οι τεχνικές PMR και ReconBoost βασίζονται στην εξισορρόπηση μέσω συνάρτησης πολλαπλών απωλειών. Το PMR εισάγει ένα σχήμα ποινής και ενίσχυσης, ενώ το ReconBoost ενσωματώνει ένα εναλλασσόμενο μαθησιακό πρότυπο. Επιπλέον, αξιολογούμε αρχιτεκτονικές επιλογές, όπως ο optimizer, το batch size και η χρήση συνόλου ανάπτυξης για αμερόληπτους υπολογισμούς. Παρόλο που οι τεχνικές εξισορρόπησης μέσω παραγώγων και πολλαπλών απωλειών συμβάλλουν στη βελτίωση της ισορροπίας μάθησης, καμία δεν επιλύει πλήρως το πρόβλημα της ανισόρροπης εκπαίδευσης. Καθιερωμένα βασικά μοντέλα, όπως το Late Concatenation και το Uni-Pre Finetuned, διατηρούν την υπεροχή τους όσον αφορά την ακρίβεια ταξινόμησης. Η χρήση ενός συνόλου ανάπτυξης αποδεικνύεται ευεργετική για τη σταθερότητα και την αποφυγή μεροληψίας, ενώ ο Adam αναδεικνύεται ως ο πιο αποτελεσματικός optimizer. Παρά αυτές τις εξελίξεις, η βελτιστοποίηση πολυτροπικών μοντέλων παραμένει μια ανοιχτή πρόκληση. Οι δυναμικές τεχνικές βελτιστοποίησης ενισχύουν την ισορροπία, αλλά όχι τη συνολική απόδοση, υπογραμμίζοντας την ανάγκη για πιο προσαρμοστικές στη δομή των δεδομένων εισόδου τεχνικές. Τα παρόντα αποτελέσματα συμβάλλουν στην καλύτερη κατανόηση των δυναμικών της πολυτροπικής μάθησης, προσφέροντας πολύτιμες προοπτικές για μελλοντικές βελτιώσεις στην πολυτροπική ανάλυση συναισθήματος. el
heal.abstract Multimodal learning has gained significant attention in sentiment analysis, yet multimodal models often have degraded performance compared to their unimodal counterparts—a counterintuitive phenomenon. Imbalanced learning dynamics, where certain modalities dominate the learning process while others remain underutilized, lead to suboptimal model performance. This thesis investigates the impact of optimization techniques on multimodal neural networks, focusing on how different strategies influence unbalanced learning dynamics in sentiment analysis. We evaluate two categories of optimization techniques on the CMU-MOSI and CMU-MOSEI datasets for sentiment classification. Methods of OGM-GE and AGM, apply direct gradient adjustments during backpropagation to ensure balanced contributions from each modality. On the other hand, PMR and ReconBoost focuses on a multi-loss approach. PMR introduces a penalty-boosting loss scheme, while ReconBoost incorporates an alternating learning paradigm. Additionally, we assess architectural choices, including optimizer selection, batch size, and the use of a development set for unbiased auxiliary calculations in dynamic adjustments. While gradient-based and multi-loss approaches help balance learning dynamics, no single method fully resolves modality imbalance in our tasks. Established baselines, such as Late Concatenation and Uni-Pre Finetuned, remain superior in accuracy. The use of a development set enhances stability and reduces bias, while Adam proves to be the most effective optimizer. Despite these advancements, multimodal optimization remains an open challenge. While dynamic optimization techniques improve modality balance, they do not consistently enhance overall performance, highlighting the need for more adaptive and modality-aware optimization strategies. These findings provide a deeper understanding of multimodal learning dynamics, offering valuable insights for future advancements in multimodal sentiment analysis. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 153 σ. el
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα