Αναγνώριση συναισθήματος στην ομιλία με μεθόδους αντιθετικής μάθησης

Ιατρόπουλος, Πέτρος; Iatropoulos, Petros

dc.contributor.author	Ιατρόπουλος, Πέτρος	el
dc.contributor.author	Iatropoulos, Petros	en
dc.date.accessioned	2023-06-14T09:58:37Z
dc.date.available	2023-06-14T09:58:37Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/57821
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25518
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Default License
dc.subject	Speech Emotion Recognition	en
dc.subject	Deep Learning	en
dc.subject	Contrastive Learning	en
dc.subject	Self-Supervised Learning	en
dc.subject	Speech Processing	en
dc.subject	Αναγνώριση Συναισθήματος στην Ομιλία	el
dc.subject	Βαθειά Μάθηση	el
dc.subject	Αντιθετική Μάθηση	el
dc.subject	Αυτεπιβλεπόμενη μάθηση	el
dc.subject	Επεξεργασία ομιλίας	el
dc.title	Αναγνώριση συναισθήματος στην ομιλία με μεθόδους αντιθετικής μάθησης	el
dc.title	Speech Emotion Recognition using Contrastive Learning	en
heal.type	masterThesis
heal.classification	Machine Learning	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-01-19
heal.abstract	Contrastive learning is a machine learning technique that aims to optimize the similar- ity between different data points. It has gained attention in various domains, including speech emotion recognition (SER), which refers to the task of identifying the emotional state of a speaker from their speech. In this work, the authors investigate the effective- ness of various contrastive learning methods for SER, including supervised contrastive losses (Triplet, NT-Xent, SupCon), self-supervised contrastive pre-training, and a com- bination of self-supervised pre-training and supervised fine-tuning. Early work in SER focused on extracting a set of emotion features and determining the optimal time-scale for emotional context extraction. These features were extracted from speech frames using Low Level Descriptors (LLDs) such as Mel Frequency Cep- stral Coefficients (MFCCs), pitch, short-time energy, Zero Crossing Rate (ZCR), and Harmonic to Noise Ratio (HNR). These LLDs were aggregated using statistical func- tionals or by training neural networks on top of them and summarizing the results through an attention mechanism. With the increase in computational power, SER systems began to perform feature extraction using neural networks that were trained on spectrograms or even raw speech signals. Recent works in SER have attempted to improve performance using contrastive learning techniques. In some cases, this has involved pre-training models using a self-supervised contrastive loss (e.g., NT-Xent or Barlow Twins) and then fine-tuning them using a supervised triplet loss. Others have used features from pre-trained models that were trained using a self-supervised contrastive loss (e.g., wav2vec 2.0). In this work, we applied several contrastive learning methods and measured their ef- fect on SER. We found that supervised contrastive losses did not significantly improve performance compared to supervised cross-entropy training. However, self-supervised pre-training and supervised fine-tuning with cross-entropy performed better than sim- ply training with cross-entropy. Pre-training with the NT-Xent loss and fine-tuning with the cross-entropy loss resulted in the best performance. The authors also found that using a larger dataset for pre-training improved performance, and that the com- bination of self-supervised pre-training and supervised fine-tuning was more effective than either approach alone. Overall, the results of this work suggest that self-supervised pre-training and supervised fine-tuning with cross-entropy is a promising approach for SER, and that using a larger dataset for pre-training can further improve performance. Further research is needed to fully understand the benefits and limitations of contrastive learning for SER.	en
heal.abstract	Η αντιθετική μάθηση (Contrastive Learning) είναι μια τεχνική μηχανικής μάθησης που στοχεύει στη βελτιστοποίηση της ομοιότητας μεταξύ διαφορετικών σημείων δεδομένων. ́Εχει κερδίσει την προσοχή σε διάφορους τομείς, συμπεριλαμβανομένης της αναγνώρισης συναισθημάτων ομιλίας (Speech Emotion Recognition - SER), η οποία αναφέρεται στο έργο της αναγνώρισης της συναισθηματικής κατάστασης ενός ομιλητή από την ομιλία του. Σε αυτή την εργασία, οι συγγραφείς διερευνούν την αποτελεσματικότητα διαφόρων μεθόδων αντιθετικής μάθησης για το SER, συμπεριλαμβανομένων των εποπτευόμενων απωλειών αντίθεσης (contrastive losses) (Triplet, NT-Xent, SupCon), της αυτοεποπτευ- όμενης προεκπαίδευσης αντίθεσης και ενός συνδυασμού αυτοεπιβλεπόμενης προεκπαίδευ- σης και εποπτευόμενης μικρορύθμισης. Η πρώιμη εργασία στο SER επικεντρώθηκε στην εξαγωγή ενός συνόλου χαρακτηριστι- κών συναισθημάτων και στον καθορισμό της βέλτιστης χρονικής κλίμακας για την εξαγω- γή συναισθηματικού πλαισίου. Αυτά τα χαρακτηριστικά εξήχθησαν από πλαίσια ομιλίας χρησιμοποιώντας Περιγραφείς Χαμηλού Επιπέδου (Low Level Descriptors - LLD) όπως Συντελεστές Mel Cepstral Συχνότητας (MFCCs), Θεμελιώδης συχνότητα (F0), βρα- χυχρόνια ενέργεια (Short-term Energy), ρυθμός διέλευσης από το μηδέν (Zero Crossing Rate - ZCR) και λόγος αρμονικών προς θόρυβο (Harmonic to Noise Ration - HNR). Αυ- τά τα LLD συγκεντρώθηκαν χρησιμοποιώντας στατιστικές συναρτήσεις ή εκπαιδεύοντας νευρωνικά δίκτυα πάνω τους και συνοψίζοντας τα αποτελέσματα μέσω ενός μηχανισμού προσοχής. Με την αύξηση της υπολογιστικής ισχύος, τα συστήματα SER άρχισαν να εκτελούν εξαγωγή χαρακτηριστικών χρησιμοποιώντας νευρωνικά δίκτυα που είχαν εκπαι- δευτεί σε φασματογράμματα ή ακόμα και ακατέργαστα σήματα ομιλίας. Πρόσφατες εργασίες στο SER προσπάθησαν να βελτιώσουν την απόδοση χρησιμοποι- ώντας τεχνικές αντιθετικής μάθησης. Σε ορισμένες περιπτώσεις, αυτό περιλάμβανε μο- ντέλα προ-εκπαίδευσης χρησιμοποιώντας μια αυτοεπιβλεπόμενη συνάρτηση σφάλματος α- ντίθεσης (π.χ. NT-Xent ή Barlow Twins) και στη συνέχεια βελτίωσή τους χρησιμοποι- ώντας μια εποπτευόμενη συνάρτηση σφάλματος τριπλής. ́Αλλοι έχουν χρησιμοποιήσει χαρακτηριστικά από προεκπαιδευμένα μοντέλα που εκπαιδεύτηκαν χρησιμοποιώντας μια αυτοεπιβλεπόμενη συνάρτηση σφάλματος αντίθεσης (π.χ. wav2vec 2.0). Σε αυτή την εργασία, εφαρμόσαμε διάφορες μεθόδους αντιθετικής μάθησης και μετρήσαμε την επίδρασή τους στο SER. Διαπιστώσαμε ότι οι εποπτευόμενες συναρτήσεις σφάλμα- τος αντίθεσης δεν βελτίωσαν σημαντικά την απόδοση σε σύγκριση με την εποπτευόμενη εκπαίδευση διασταυρούμενης εντροπίας (cross entropy). Ωστόσο, η αυτο-εποπτευόμενη προ-εκπαίδευση και η εποπτευόμενη μικρορύθμιση με διασταυρούμενη εντροπία απέδωσαν καλύτερα από την απλή εκπαίδευση με διασταυρούμενη εντροπία. Η προ-εκπαίδευση με την NT-Xent και η μικρορύθμιση με τη συνάρτηση σφάλματος διασταυρούμενης εντροπίας είχαν ως αποτέλεσμα την καλύτερη απόδοση. Οι συγγραφείς διαπίστωσαν επίσης ότι η χρήση ενός μεγαλύτερου συνόλου δεδομένων για προ-εκπαίδευση βελτίωσε την απόδοση και ότι ο συνδυασμός της αυτο-εποπτευόμενης προ-εκπαίδευσης και της εποπτευόμενης μικρορύθμισης ήταν πιο αποτελεσματικός από κάθε προσέγγιση μόνη της. Συνολικά, τα αποτελέσματα αυτής της εργασίας υποδηλώνουν ότι η αυτο-εποπτευόμενη προ-εκπαίδευση και η εποπτευόμενη μικρορύθμιση με διασταυρούμενη εντροπία είναι μια πολλά υποσχόμενη προσέγγιση για το SER και ότι η χρήση ενός μεγαλύτερου συνόλου δεδομένων για προεκπαίδευση μπορεί να βελτιώσει περαιτέρω την απόδοση. Απαιτείται περαιτέρω έρευνα για την πλήρη κατανόηση των πλεονεκτημάτων και των περιορισμών της αντιθετικής μάθησης για το SER.	el
heal.advisorName	Potamianos, Alexandros	en
heal.committeeMemberName	Stamou, Giorgos	en
heal.committeeMemberName	Potamianos, Alexandros	en
heal.committeeMemberName	Katsamanis, Athanasios	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	80 σ.	el
heal.fullTextAvailability	false