HEAL DSpace

Self supervised multimodal learning for emotion Recognition

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πουλινάκης, Κωνσταντίνος el
dc.contributor.author Poulinakis, Konstantinos en
dc.date.accessioned 2023-11-24T08:04:00Z
dc.date.available 2023-11-24T08:04:00Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58314
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26010
dc.rights Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ *
dc.subject Multimodal learning en
dc.subject Self supervised learning en
dc.subject Deep learning en
dc.subject Contrastive learning en
dc.subject Machine learning en
dc.subject Neural networks en
dc.subject Self attention en
dc.subject Modality fusion en
dc.subject Πολυτροπική μάθηση el
dc.subject Αυτοεπιβλεπόμενη μάθηση el
dc.subject Βαθιά μάθηση el
dc.subject Νευρωνικά δίκτυα el
dc.subject Μηχανική μάθηση el
dc.subject Μηχανισμός ενδοπροσοχής el
dc.subject Μηχανισμός αυτοπροσοχής el
dc.subject LSTM en
dc.subject Αναδρομικά νευρωνικά δίκτυα el
dc.subject Αναγνώριση συναισθημάτων el
dc.subject Recurrent neural networks en
dc.subject Emotion recognition en
dc.subject LSTM el
dc.title Self supervised multimodal learning for emotion Recognition en
dc.title Αυτοεπιβλεπόμενη Πολυτροπική Μάθηση για Αναγνώριση Συναισθημάτων el
heal.type masterThesis
heal.classification Artificial Intelligence en
heal.classification Τεχνητή Νοημοσύνη el
heal.classification Πληροφορική el
heal.classification Αναγνώριση Προτύπων el
heal.classification Pattern Recognition en
heal.classification Computer Science en
heal.classification Machine Learning en
heal.classification Information Technology en
heal.classification Μηχανικής Μάθηση el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-05-25
heal.abstract The purpose of this dissertation is to explore the utilization of self-supervised learning paradigm for multimodal deep learning on the task of emotion recognition. Our work is driven by a compelling question: Can the benefits of self-supervised learning, witnessed in vast-scale datasets, be transferred effectively to multimodal settings, and particularly for small- to medium-sized datasets? In our pur- suit, we carry out a thorough investigation of self-supervised multimodal learning and contrast its performance with traditional supervised baselines. We propose a self-supervised learning (SSL) multimodal framework that adapts existing unimodal SSL frameworks in the multimodal setting. Our framework is adapted to accommodate three modalities (text, visual, audio) and can easily expand to more modalities. The input data are sequential and come in an embedding form instead of their raw form. Our proposal relies on a ”siamese networks” framework and a contrastive loss optimization based on the cross-correlation matrix of the two outputs. Our baseline multimodal architecture is based on LSTM networks and self-attention mechanisms. An augmentation module transforms the input features before feeding the two transformed views to the multimodal architecture. A projector network projects the outputs in a joint embedding space on which the contrastive loss is minimized. Through SSL our models learn transformation invariant features from unlabeled data that prove helpful in the task of emotion recognition. A series of experimental trials, confirm that self-supervision leads to performance enhancements across all six evaluation metrics. The absolute metric improvements range from 0.4% to 1.3% compared to the supervised baselines. Moreover, we find out that SSL models require 20% - 40% fewer labeled data during fine-tuning in order to match the performance of the supervised baseline trained on the whole dataset. We conduct our experiments with the pre-extracted features of the CMU-MOSEI dataset. Our proposed methodology competes favorably with the existing state-of-the-art, yielding highly competitive results. In order to learn transformation-invariant representations we engage three augmentation techniques adequate for multimodal pre-extracted feature inputs, namely, Gaussian noise, masking, SeqAug, and their combinations. We perform a thorough exploration to discern the most optimal combination and hyperparameters. Finally, we propose multiple variations and provide guidance for future work that can expand upon our proposed framework. en
heal.abstract Σκοπός αυτής της διατριβής είναι να διερευνήσει τη χρήση της αυτοεπιβλεπόμενης μάθησης (self- supervised learning, SSL) σε πολυτροπικά (multimodal) μοντέλα βαθιάς μάθησης, εφαρμοσμένα πάνω στο έργο της αναγνώρισης συναισθημάτων. Η εργασία μας καθοδηγείται από ένα συναρπαστικό ερώτημα: Μπορούν τα οφέλη της αυτοεπιβλεπόμενης μάθησης, που παρατηρούνται σε ευρείας κλίμακας σύνολα δεδομένων, να μεταφερθούν αποτελεσματικά σε ένα πολυτροπικό πλαίσιο, και ιδιαίτερα για σύνολα δεδομένων μικρού έως μεσαίου μεγέθους; Στο πλαίσιο της επιδίωξής μας, πραγματοποιούμε μια διεξοδική έρευνα της αυτοεπιβλεπόμενης πολυτροπικής μάθησης και αντιπαραβάλλουμε την απόδοσή της με τις παραδοσιακές τεχνικές επιβλεπόμενης μάθησης. Προτείνουμε μια πολυτροπική μέθοδο αυτοεπιβλεπόμενης μάθησης που προσαρμόζει τις υπάρχοντες μονοτροπικές μεθόδους αυτοεπιβλεπόμενης μάθησης σε πολυτροπικό περιβάλλον. Το πλαίσιο μας είναι προσαρμοσμένο για να επεξεργάζεται τρεις μορφές δεδομένων (τροπικότητες), κείμενο, εικόνα, ήχο. Όμως μπορεί εύκολα να επεκταθεί σε ακόμα περισσότερες τροπικότητες. Τα δεδομένα εισόδου είναι διαδοχικά και έρχονται σε μορφή προεξαγόμενων χαρακτηριστικών (embeddings). Η πρότασή μας βασίζεται σε ένα πλαίσιο ”σιαμέων δικτύων” και στην βελτιστοποίηση μιας αντιθετικής συνάρτησης κόστους (contrastive loss) που βασίζεται στον πίνακα ετεροσυσχέτισης των δύο εξόδων. Η βασική πολυτροπική αρχιτεκτονική μας βασίζεται σε δίκτυα LSTM και μηχανισμούς αυτοπροσοχής. Στην είσοδο ένα augmentation module μετασχηματίζει τα χαρακτηριστικά εισόδου πριν τροφοδοτήσει τις δύο μετασχηματισμένες εισόδους στην πολυτροπική αρχιτεκτονική. Ένα δίκτυο projector προβάλλει τις εξόδους σε έναν κοινό χώρο αναπαράστασης στον οποίο ελαχιστοποιείται η συνάρτηση κόστους. Μέσω της αυτοεπιβλεπόμενης μάθησης τα μοντέλα μας μαθαίνουν αμετάβλητα χαρακτηριστικά από δεδομένα χωρίς ετικέτες, που αποδεικνύονται χρήσιμα για την αναγνώριση συναισθημάτων. Μια σειρά πειραματικών δοκιμών επιβεβαιώνει ότι η αυτοεπίβλεψη οδηγεί σε βελτιώσεις απόδοσης και στις έξι μετρικές αξιολόγησης. Οι βελτιώσεις κυμαίνονται από 0,4% έως 1,3% απόλυτες μονάδες σε σύγκριση με την επιβλεπόμενη μάθηση. Επιπλέον, ανακαλύπτουμε ότι τα μοντέλα αυτοεπιβλεπόμενης μάθησης απαιτούν 20% - 40% λιγότερα δεδομένα με ετικέτα, προκειμένου να ισοφαρίσουν την απόδοση της επιβλεπόμενης μάθησης που εκπαιδεύεται σε ολόκληρο το σύνολο δεδομένων. Διεξάγουμε τα πειράματά μας με χαρακτηριστικά του συνόλου δεδομένων CMU-MOSEI. Η προτεινόμενη μεθοδολογία μας ανταγωνίζεται ευνοϊκά την υπάρχουσα state-of-the-art τεχνολογία, αποδίδοντας πολύ ανταγωνιστικά αποτελέσματα. Προκειμένου να μάθουμε αναπαραστάσεις αναλλοίωτες σε μετασχηματισμούς, χρησιμοποιούμε τρεις τεχνικές μετασχηματισμού κατάλληλες για πολυτροπικές εισόδους προεξαγώμενων χαρακτηριστικών, συγκεκριμένα, Gaussian noise, masking, SeqAug και τους συνδυασμούς τους. Πραγματοποιήσαμε ενδελεχή εξερεύνηση για να βρεθεί τόσο ο βέλτιστος μετασχηματισμός όσο και οι βέλτιστες υπερπαράμετροι. Τέλος, προτείνουμε πολλαπλές παραλλαγές και παρέχουμε καθοδήγηση για μελλοντικές εργασίες που μπορούν να επεκτείνουν την προτεινόμενη μέθοδο. el
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Stamou, Giorgos en
heal.committeeMemberName Στάμου, Γιώργος el
heal.committeeMemberName Kollias, Stefanos en
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 107 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα