HEAL DSpace

Αναγνώριση συναισθήματος στην ομιλία με μεθόδους αντιθετικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ιατρόπουλος, Πέτρος el
dc.contributor.author Iatropoulos, Petros en
dc.date.accessioned 2023-06-14T09:58:37Z
dc.date.available 2023-06-14T09:58:37Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57821
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25518
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Speech Emotion Recognition en
dc.subject Deep Learning en
dc.subject Contrastive Learning en
dc.subject Self-Supervised Learning en
dc.subject Speech Processing en
dc.subject Αναγνώριση Συναισθήματος στην Ομιλία el
dc.subject Βαθειά Μάθηση el
dc.subject Αντιθετική Μάθηση el
dc.subject Αυτεπιβλεπόμενη μάθηση el
dc.subject Επεξεργασία ομιλίας el
dc.title Αναγνώριση συναισθήματος στην ομιλία με μεθόδους αντιθετικής μάθησης el
dc.title Speech Emotion Recognition using Contrastive Learning en
heal.type masterThesis
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-01-19
heal.abstract Contrastive learning is a machine learning technique that aims to optimize the similar- ity between different data points. It has gained attention in various domains, including speech emotion recognition (SER), which refers to the task of identifying the emotional state of a speaker from their speech. In this work, the authors investigate the effective- ness of various contrastive learning methods for SER, including supervised contrastive losses (Triplet, NT-Xent, SupCon), self-supervised contrastive pre-training, and a com- bination of self-supervised pre-training and supervised fine-tuning. Early work in SER focused on extracting a set of emotion features and determining the optimal time-scale for emotional context extraction. These features were extracted from speech frames using Low Level Descriptors (LLDs) such as Mel Frequency Cep- stral Coefficients (MFCCs), pitch, short-time energy, Zero Crossing Rate (ZCR), and Harmonic to Noise Ratio (HNR). These LLDs were aggregated using statistical func- tionals or by training neural networks on top of them and summarizing the results through an attention mechanism. With the increase in computational power, SER systems began to perform feature extraction using neural networks that were trained on spectrograms or even raw speech signals. Recent works in SER have attempted to improve performance using contrastive learning techniques. In some cases, this has involved pre-training models using a self-supervised contrastive loss (e.g., NT-Xent or Barlow Twins) and then fine-tuning them using a supervised triplet loss. Others have used features from pre-trained models that were trained using a self-supervised contrastive loss (e.g., wav2vec 2.0). In this work, we applied several contrastive learning methods and measured their ef- fect on SER. We found that supervised contrastive losses did not significantly improve performance compared to supervised cross-entropy training. However, self-supervised pre-training and supervised fine-tuning with cross-entropy performed better than sim- ply training with cross-entropy. Pre-training with the NT-Xent loss and fine-tuning with the cross-entropy loss resulted in the best performance. The authors also found that using a larger dataset for pre-training improved performance, and that the com- bination of self-supervised pre-training and supervised fine-tuning was more effective than either approach alone. Overall, the results of this work suggest that self-supervised pre-training and supervised fine-tuning with cross-entropy is a promising approach for SER, and that using a larger dataset for pre-training can further improve performance. Further research is needed to fully understand the benefits and limitations of contrastive learning for SER. en
heal.abstract Η αντιθετική μάθηση (Contrastive Learning) είναι μια τεχνική μηχανικής μάθησης που στοχεύει στη βελτιστοποίηση της ομοιότητας μεταξύ διαφορετικών σημείων δεδομένων. ́Εχει κερδίσει την προσοχή σε διάφορους τομείς, συμπεριλαμβανομένης της αναγνώρισης συναισθημάτων ομιλίας (Speech Emotion Recognition - SER), η οποία αναφέρεται στο έργο της αναγνώρισης της συναισθηματικής κατάστασης ενός ομιλητή από την ομιλία του. Σε αυτή την εργασία, οι συγγραφείς διερευνούν την αποτελεσματικότητα διαφόρων μεθόδων αντιθετικής μάθησης για το SER, συμπεριλαμβανομένων των εποπτευόμενων απωλειών αντίθεσης (contrastive losses) (Triplet, NT-Xent, SupCon), της αυτοεποπτευ- όμενης προεκπαίδευσης αντίθεσης και ενός συνδυασμού αυτοεπιβλεπόμενης προεκπαίδευ- σης και εποπτευόμενης μικρορύθμισης. Η πρώιμη εργασία στο SER επικεντρώθηκε στην εξαγωγή ενός συνόλου χαρακτηριστι- κών συναισθημάτων και στον καθορισμό της βέλτιστης χρονικής κλίμακας για την εξαγω- γή συναισθηματικού πλαισίου. Αυτά τα χαρακτηριστικά εξήχθησαν από πλαίσια ομιλίας χρησιμοποιώντας Περιγραφείς Χαμηλού Επιπέδου (Low Level Descriptors - LLD) όπως Συντελεστές Mel Cepstral Συχνότητας (MFCCs), Θεμελιώδης συχνότητα (F0), βρα- χυχρόνια ενέργεια (Short-term Energy), ρυθμός διέλευσης από το μηδέν (Zero Crossing Rate - ZCR) και λόγος αρμονικών προς θόρυβο (Harmonic to Noise Ration - HNR). Αυ- τά τα LLD συγκεντρώθηκαν χρησιμοποιώντας στατιστικές συναρτήσεις ή εκπαιδεύοντας νευρωνικά δίκτυα πάνω τους και συνοψίζοντας τα αποτελέσματα μέσω ενός μηχανισμού προσοχής. Με την αύξηση της υπολογιστικής ισχύος, τα συστήματα SER άρχισαν να εκτελούν εξαγωγή χαρακτηριστικών χρησιμοποιώντας νευρωνικά δίκτυα που είχαν εκπαι- δευτεί σε φασματογράμματα ή ακόμα και ακατέργαστα σήματα ομιλίας. Πρόσφατες εργασίες στο SER προσπάθησαν να βελτιώσουν την απόδοση χρησιμοποι- ώντας τεχνικές αντιθετικής μάθησης. Σε ορισμένες περιπτώσεις, αυτό περιλάμβανε μο- ντέλα προ-εκπαίδευσης χρησιμοποιώντας μια αυτοεπιβλεπόμενη συνάρτηση σφάλματος α- ντίθεσης (π.χ. NT-Xent ή Barlow Twins) και στη συνέχεια βελτίωσή τους χρησιμοποι- ώντας μια εποπτευόμενη συνάρτηση σφάλματος τριπλής. ́Αλλοι έχουν χρησιμοποιήσει χαρακτηριστικά από προεκπαιδευμένα μοντέλα που εκπαιδεύτηκαν χρησιμοποιώντας μια αυτοεπιβλεπόμενη συνάρτηση σφάλματος αντίθεσης (π.χ. wav2vec 2.0). Σε αυτή την εργασία, εφαρμόσαμε διάφορες μεθόδους αντιθετικής μάθησης και μετρήσαμε την επίδρασή τους στο SER. Διαπιστώσαμε ότι οι εποπτευόμενες συναρτήσεις σφάλμα- τος αντίθεσης δεν βελτίωσαν σημαντικά την απόδοση σε σύγκριση με την εποπτευόμενη εκπαίδευση διασταυρούμενης εντροπίας (cross entropy). Ωστόσο, η αυτο-εποπτευόμενη προ-εκπαίδευση και η εποπτευόμενη μικρορύθμιση με διασταυρούμενη εντροπία απέδωσαν καλύτερα από την απλή εκπαίδευση με διασταυρούμενη εντροπία. Η προ-εκπαίδευση με την NT-Xent και η μικρορύθμιση με τη συνάρτηση σφάλματος διασταυρούμενης εντροπίας είχαν ως αποτέλεσμα την καλύτερη απόδοση. Οι συγγραφείς διαπίστωσαν επίσης ότι η χρήση ενός μεγαλύτερου συνόλου δεδομένων για προ-εκπαίδευση βελτίωσε την απόδοση και ότι ο συνδυασμός της αυτο-εποπτευόμενης προ-εκπαίδευσης και της εποπτευόμενης μικρορύθμισης ήταν πιο αποτελεσματικός από κάθε προσέγγιση μόνη της. Συνολικά, τα αποτελέσματα αυτής της εργασίας υποδηλώνουν ότι η αυτο-εποπτευόμενη προ-εκπαίδευση και η εποπτευόμενη μικρορύθμιση με διασταυρούμενη εντροπία είναι μια πολλά υποσχόμενη προσέγγιση για το SER και ότι η χρήση ενός μεγαλύτερου συνόλου δεδομένων για προεκπαίδευση μπορεί να βελτιώσει περαιτέρω την απόδοση. Απαιτείται περαιτέρω έρευνα για την πλήρη κατανόηση των πλεονεκτημάτων και των περιορισμών της αντιθετικής μάθησης για το SER. el
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Stamou, Giorgos en
heal.committeeMemberName Potamianos, Alexandros en
heal.committeeMemberName Katsamanis, Athanasios en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 80 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής