dc.contributor.author | Καφφέζα, Ιωάννα![]() |
el |
dc.contributor.author | Kaffeza, Ioanna![]() |
en |
dc.date.accessioned | 2025-07-30T11:05:48Z | |
dc.date.available | 2025-07-30T11:05:48Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62231 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.29927 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Μηχανική Μάθηση | el |
dc.subject | Πολυτροπικά Νευρωνικά ∆ίκτυα | el |
dc.subject | Ανάλυση Συναισθήματος | el |
dc.subject | Αλγόριθμος Ανάστροφης Διάδοσης | el |
dc.subject | Ανισόρροπη Εκμάθηση | el |
dc.subject | Τεχνικές Βελτιστοποίησης | el |
dc.subject | Machine Learning | en |
dc.subject | Multimodal Neural Networks | en |
dc.subject | Sentiment Analysis | en |
dc.subject | Backpropagation Algorithm | en |
dc.subject | Imbalanced Learning | en |
dc.subject | Optimization Techniques | en |
dc.title | Investigating optimization techniques for multimodal neural networks | en |
heal.type | bachelorThesis | |
heal.classification | Machine Learning | en |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2025-02-25 | |
heal.abstract | Η πολυτροπική μάθηση έχει προσελκύσει σημαντικό ενδιαφέρον στην ανάλυση συναισθήματος, ωστόσο, τα πολυτροπικά μοντέλα συχνά εμφανίζουν υποδεέστερη απόδοση σε σύγκριση με τα μονοτροπικά—ένα αντιφατικό φαινόμενο. Οι ανισόρροπες δυναμικές μάθησης, όπου ορισμένες μορφές δεδομένων κυριαρχούν στη διαδικασία εκπαίδευσης, ενώ άλλες παραμένουν αναξιοποίητες, οδηγούν σε μη βέλτιστη απόδοση του μοντέλου. Η παρούσα διπλωματική διερευνά την επίδραση των τεχνικών βελτιστοποίησης σε πολυτροπικά νευρωνικά δίκτυα, εστιάζοντας στο πώς διαφορετικές στρατηγικές επηρεάζουν τις ανισόρροπες δυναμικές μάθησης στην ανάλυση συναισθήματος. Αξιολογούμε δύο κατηγορίες τεχνικών βελτιστοποίησης στα σύνολα δεδομένων CMU-MOSI και CMU-MOSEI. Οι τεχνικές OGM-GE, AGM εφαρμόζουν άμεσες προσαρμογές των παραγώγων κατά την ανάστροφη διάδοση, στοχεύοντας σε ισορροπημένη συνεισφορά από κάθε μορφή δεδομένων. Αντίθετα, οι τεχνικές PMR και ReconBoost βασίζονται στην εξισορρόπηση μέσω συνάρτησης πολλαπλών απωλειών. Το PMR εισάγει ένα σχήμα ποινής και ενίσχυσης, ενώ το ReconBoost ενσωματώνει ένα εναλλασσόμενο μαθησιακό πρότυπο. Επιπλέον, αξιολογούμε αρχιτεκτονικές επιλογές, όπως ο optimizer, το batch size και η χρήση συνόλου ανάπτυξης για αμερόληπτους υπολογισμούς. Παρόλο που οι τεχνικές εξισορρόπησης μέσω παραγώγων και πολλαπλών απωλειών συμβάλλουν στη βελτίωση της ισορροπίας μάθησης, καμία δεν επιλύει πλήρως το πρόβλημα της ανισόρροπης εκπαίδευσης. Καθιερωμένα βασικά μοντέλα, όπως το Late Concatenation και το Uni-Pre Finetuned, διατηρούν την υπεροχή τους όσον αφορά την ακρίβεια ταξινόμησης. Η χρήση ενός συνόλου ανάπτυξης αποδεικνύεται ευεργετική για τη σταθερότητα και την αποφυγή μεροληψίας, ενώ ο Adam αναδεικνύεται ως ο πιο αποτελεσματικός optimizer. Παρά αυτές τις εξελίξεις, η βελτιστοποίηση πολυτροπικών μοντέλων παραμένει μια ανοιχτή πρόκληση. Οι δυναμικές τεχνικές βελτιστοποίησης ενισχύουν την ισορροπία, αλλά όχι τη συνολική απόδοση, υπογραμμίζοντας την ανάγκη για πιο προσαρμοστικές στη δομή των δεδομένων εισόδου τεχνικές. Τα παρόντα αποτελέσματα συμβάλλουν στην καλύτερη κατανόηση των δυναμικών της πολυτροπικής μάθησης, προσφέροντας πολύτιμες προοπτικές για μελλοντικές βελτιώσεις στην πολυτροπική ανάλυση συναισθήματος. | el |
heal.abstract | Multimodal learning has gained significant attention in sentiment analysis, yet multimodal models often have degraded performance compared to their unimodal counterparts—a counterintuitive phenomenon. Imbalanced learning dynamics, where certain modalities dominate the learning process while others remain underutilized, lead to suboptimal model performance. This thesis investigates the impact of optimization techniques on multimodal neural networks, focusing on how different strategies influence unbalanced learning dynamics in sentiment analysis. We evaluate two categories of optimization techniques on the CMU-MOSI and CMU-MOSEI datasets for sentiment classification. Methods of OGM-GE and AGM, apply direct gradient adjustments during backpropagation to ensure balanced contributions from each modality. On the other hand, PMR and ReconBoost focuses on a multi-loss approach. PMR introduces a penalty-boosting loss scheme, while ReconBoost incorporates an alternating learning paradigm. Additionally, we assess architectural choices, including optimizer selection, batch size, and the use of a development set for unbiased auxiliary calculations in dynamic adjustments. While gradient-based and multi-loss approaches help balance learning dynamics, no single method fully resolves modality imbalance in our tasks. Established baselines, such as Late Concatenation and Uni-Pre Finetuned, remain superior in accuracy. The use of a development set enhances stability and reduces bias, while Adam proves to be the most effective optimizer. Despite these advancements, multimodal optimization remains an open challenge. While dynamic optimization techniques improve modality balance, they do not consistently enhance overall performance, highlighting the need for more adaptive and modality-aware optimization strategies. These findings provide a deeper understanding of multimodal learning dynamics, offering valuable insights for future advancements in multimodal sentiment analysis. | en |
heal.advisorName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 153 σ. | el |
heal.fullTextAvailability | false |
The following license files are associated with this item: