dc.contributor.author | Πουλινάκης, Κωνσταντίνος | el |
dc.contributor.author | Poulinakis, Konstantinos | en |
dc.date.accessioned | 2023-11-24T08:04:00Z | |
dc.date.available | 2023-11-24T08:04:00Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/58314 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.26010 | |
dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ | * |
dc.subject | Multimodal learning | en |
dc.subject | Self supervised learning | en |
dc.subject | Deep learning | en |
dc.subject | Contrastive learning | en |
dc.subject | Machine learning | en |
dc.subject | Neural networks | en |
dc.subject | Self attention | en |
dc.subject | Modality fusion | en |
dc.subject | Πολυτροπική μάθηση | el |
dc.subject | Αυτοεπιβλεπόμενη μάθηση | el |
dc.subject | Βαθιά μάθηση | el |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | Μηχανική μάθηση | el |
dc.subject | Μηχανισμός ενδοπροσοχής | el |
dc.subject | Μηχανισμός αυτοπροσοχής | el |
dc.subject | LSTM | en |
dc.subject | Αναδρομικά νευρωνικά δίκτυα | el |
dc.subject | Αναγνώριση συναισθημάτων | el |
dc.subject | Recurrent neural networks | en |
dc.subject | Emotion recognition | en |
dc.subject | LSTM | el |
dc.title | Self supervised multimodal learning for emotion Recognition | en |
dc.title | Αυτοεπιβλεπόμενη Πολυτροπική Μάθηση για Αναγνώριση Συναισθημάτων | el |
heal.type | masterThesis | |
heal.classification | Artificial Intelligence | en |
heal.classification | Τεχνητή Νοημοσύνη | el |
heal.classification | Πληροφορική | el |
heal.classification | Αναγνώριση Προτύπων | el |
heal.classification | Pattern Recognition | en |
heal.classification | Computer Science | en |
heal.classification | Machine Learning | en |
heal.classification | Information Technology | en |
heal.classification | Μηχανικής Μάθηση | el |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-05-25 | |
heal.abstract | The purpose of this dissertation is to explore the utilization of self-supervised learning paradigm for multimodal deep learning on the task of emotion recognition. Our work is driven by a compelling question: Can the benefits of self-supervised learning, witnessed in vast-scale datasets, be transferred effectively to multimodal settings, and particularly for small- to medium-sized datasets? In our pur- suit, we carry out a thorough investigation of self-supervised multimodal learning and contrast its performance with traditional supervised baselines. We propose a self-supervised learning (SSL) multimodal framework that adapts existing unimodal SSL frameworks in the multimodal setting. Our framework is adapted to accommodate three modalities (text, visual, audio) and can easily expand to more modalities. The input data are sequential and come in an embedding form instead of their raw form. Our proposal relies on a ”siamese networks” framework and a contrastive loss optimization based on the cross-correlation matrix of the two outputs. Our baseline multimodal architecture is based on LSTM networks and self-attention mechanisms. An augmentation module transforms the input features before feeding the two transformed views to the multimodal architecture. A projector network projects the outputs in a joint embedding space on which the contrastive loss is minimized. Through SSL our models learn transformation invariant features from unlabeled data that prove helpful in the task of emotion recognition. A series of experimental trials, confirm that self-supervision leads to performance enhancements across all six evaluation metrics. The absolute metric improvements range from 0.4% to 1.3% compared to the supervised baselines. Moreover, we find out that SSL models require 20% - 40% fewer labeled data during fine-tuning in order to match the performance of the supervised baseline trained on the whole dataset. We conduct our experiments with the pre-extracted features of the CMU-MOSEI dataset. Our proposed methodology competes favorably with the existing state-of-the-art, yielding highly competitive results. In order to learn transformation-invariant representations we engage three augmentation techniques adequate for multimodal pre-extracted feature inputs, namely, Gaussian noise, masking, SeqAug, and their combinations. We perform a thorough exploration to discern the most optimal combination and hyperparameters. Finally, we propose multiple variations and provide guidance for future work that can expand upon our proposed framework. | en |
heal.abstract | Σκοπός αυτής της διατριβής είναι να διερευνήσει τη χρήση της αυτοεπιβλεπόμενης μάθησης (self- supervised learning, SSL) σε πολυτροπικά (multimodal) μοντέλα βαθιάς μάθησης, εφαρμοσμένα πάνω στο έργο της αναγνώρισης συναισθημάτων. Η εργασία μας καθοδηγείται από ένα συναρπαστικό ερώτημα: Μπορούν τα οφέλη της αυτοεπιβλεπόμενης μάθησης, που παρατηρούνται σε ευρείας κλίμακας σύνολα δεδομένων, να μεταφερθούν αποτελεσματικά σε ένα πολυτροπικό πλαίσιο, και ιδιαίτερα για σύνολα δεδομένων μικρού έως μεσαίου μεγέθους; Στο πλαίσιο της επιδίωξής μας, πραγματοποιούμε μια διεξοδική έρευνα της αυτοεπιβλεπόμενης πολυτροπικής μάθησης και αντιπαραβάλλουμε την απόδοσή της με τις παραδοσιακές τεχνικές επιβλεπόμενης μάθησης. Προτείνουμε μια πολυτροπική μέθοδο αυτοεπιβλεπόμενης μάθησης που προσαρμόζει τις υπάρχοντες μονοτροπικές μεθόδους αυτοεπιβλεπόμενης μάθησης σε πολυτροπικό περιβάλλον. Το πλαίσιο μας είναι προσαρμοσμένο για να επεξεργάζεται τρεις μορφές δεδομένων (τροπικότητες), κείμενο, εικόνα, ήχο. Όμως μπορεί εύκολα να επεκταθεί σε ακόμα περισσότερες τροπικότητες. Τα δεδομένα εισόδου είναι διαδοχικά και έρχονται σε μορφή προεξαγόμενων χαρακτηριστικών (embeddings). Η πρότασή μας βασίζεται σε ένα πλαίσιο ”σιαμέων δικτύων” και στην βελτιστοποίηση μιας αντιθετικής συνάρτησης κόστους (contrastive loss) που βασίζεται στον πίνακα ετεροσυσχέτισης των δύο εξόδων. Η βασική πολυτροπική αρχιτεκτονική μας βασίζεται σε δίκτυα LSTM και μηχανισμούς αυτοπροσοχής. Στην είσοδο ένα augmentation module μετασχηματίζει τα χαρακτηριστικά εισόδου πριν τροφοδοτήσει τις δύο μετασχηματισμένες εισόδους στην πολυτροπική αρχιτεκτονική. Ένα δίκτυο projector προβάλλει τις εξόδους σε έναν κοινό χώρο αναπαράστασης στον οποίο ελαχιστοποιείται η συνάρτηση κόστους. Μέσω της αυτοεπιβλεπόμενης μάθησης τα μοντέλα μας μαθαίνουν αμετάβλητα χαρακτηριστικά από δεδομένα χωρίς ετικέτες, που αποδεικνύονται χρήσιμα για την αναγνώριση συναισθημάτων. Μια σειρά πειραματικών δοκιμών επιβεβαιώνει ότι η αυτοεπίβλεψη οδηγεί σε βελτιώσεις απόδοσης και στις έξι μετρικές αξιολόγησης. Οι βελτιώσεις κυμαίνονται από 0,4% έως 1,3% απόλυτες μονάδες σε σύγκριση με την επιβλεπόμενη μάθηση. Επιπλέον, ανακαλύπτουμε ότι τα μοντέλα αυτοεπιβλεπόμενης μάθησης απαιτούν 20% - 40% λιγότερα δεδομένα με ετικέτα, προκειμένου να ισοφαρίσουν την απόδοση της επιβλεπόμενης μάθησης που εκπαιδεύεται σε ολόκληρο το σύνολο δεδομένων. Διεξάγουμε τα πειράματά μας με χαρακτηριστικά του συνόλου δεδομένων CMU-MOSEI. Η προτεινόμενη μεθοδολογία μας ανταγωνίζεται ευνοϊκά την υπάρχουσα state-of-the-art τεχνολογία, αποδίδοντας πολύ ανταγωνιστικά αποτελέσματα. Προκειμένου να μάθουμε αναπαραστάσεις αναλλοίωτες σε μετασχηματισμούς, χρησιμοποιούμε τρεις τεχνικές μετασχηματισμού κατάλληλες για πολυτροπικές εισόδους προεξαγώμενων χαρακτηριστικών, συγκεκριμένα, Gaussian noise, masking, SeqAug και τους συνδυασμούς τους. Πραγματοποιήσαμε ενδελεχή εξερεύνηση για να βρεθεί τόσο ο βέλτιστος μετασχηματισμός όσο και οι βέλτιστες υπερπαράμετροι. Τέλος, προτείνουμε πολλαπλές παραλλαγές και παρέχουμε καθοδήγηση για μελλοντικές εργασίες που μπορούν να επεκτείνουν την προτεινόμενη μέθοδο. | el |
heal.advisorName | Ποταμιάνος, Αλέξανδρος | el |
heal.advisorName | Potamianos, Alexandros | en |
heal.committeeMemberName | Stamou, Giorgos | en |
heal.committeeMemberName | Στάμου, Γιώργος | el |
heal.committeeMemberName | Kollias, Stefanos | en |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 107 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: