dc.contributor.author |
Ιατρόπουλος, Πέτρος
|
el |
dc.contributor.author |
Iatropoulos, Petros
|
en |
dc.date.accessioned |
2023-06-14T09:58:37Z |
|
dc.date.available |
2023-06-14T09:58:37Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/57821 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.25518 |
|
dc.description |
Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" |
el |
dc.rights |
Default License |
|
dc.subject |
Speech Emotion Recognition |
en |
dc.subject |
Deep Learning |
en |
dc.subject |
Contrastive Learning |
en |
dc.subject |
Self-Supervised Learning |
en |
dc.subject |
Speech Processing |
en |
dc.subject |
Αναγνώριση Συναισθήματος στην Ομιλία |
el |
dc.subject |
Βαθειά Μάθηση |
el |
dc.subject |
Αντιθετική Μάθηση |
el |
dc.subject |
Αυτεπιβλεπόμενη μάθηση |
el |
dc.subject |
Επεξεργασία ομιλίας |
el |
dc.title |
Αναγνώριση συναισθήματος στην ομιλία με μεθόδους αντιθετικής μάθησης |
el |
dc.title |
Speech Emotion Recognition using Contrastive Learning |
en |
heal.type |
masterThesis |
|
heal.classification |
Machine Learning |
en |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2023-01-19 |
|
heal.abstract |
Contrastive learning is a machine learning technique that aims to optimize the similar-
ity between different data points. It has gained attention in various domains, including
speech emotion recognition (SER), which refers to the task of identifying the emotional
state of a speaker from their speech. In this work, the authors investigate the effective-
ness of various contrastive learning methods for SER, including supervised contrastive
losses (Triplet, NT-Xent, SupCon), self-supervised contrastive pre-training, and a com-
bination of self-supervised pre-training and supervised fine-tuning.
Early work in SER focused on extracting a set of emotion features and determining
the optimal time-scale for emotional context extraction. These features were extracted
from speech frames using Low Level Descriptors (LLDs) such as Mel Frequency Cep-
stral Coefficients (MFCCs), pitch, short-time energy, Zero Crossing Rate (ZCR), and
Harmonic to Noise Ratio (HNR). These LLDs were aggregated using statistical func-
tionals or by training neural networks on top of them and summarizing the results
through an attention mechanism. With the increase in computational power, SER
systems began to perform feature extraction using neural networks that were trained
on spectrograms or even raw speech signals.
Recent works in SER have attempted to improve performance using contrastive learning
techniques. In some cases, this has involved pre-training models using a self-supervised
contrastive loss (e.g., NT-Xent or Barlow Twins) and then fine-tuning them using a
supervised triplet loss. Others have used features from pre-trained models that were
trained using a self-supervised contrastive loss (e.g., wav2vec 2.0).
In this work, we applied several contrastive learning methods and measured their ef-
fect on SER. We found that supervised contrastive losses did not significantly improve
performance compared to supervised cross-entropy training. However, self-supervised
pre-training and supervised fine-tuning with cross-entropy performed better than sim-
ply training with cross-entropy. Pre-training with the NT-Xent loss and fine-tuning
with the cross-entropy loss resulted in the best performance. The authors also found
that using a larger dataset for pre-training improved performance, and that the com-
bination of self-supervised pre-training and supervised fine-tuning was more effective
than either approach alone.
Overall, the results of this work suggest that self-supervised pre-training and supervised
fine-tuning with cross-entropy is a promising approach for SER, and that using a larger
dataset for pre-training can further improve performance. Further research is needed
to fully understand the benefits and limitations of contrastive learning for SER. |
en |
heal.abstract |
Η αντιθετική μάθηση (Contrastive Learning) είναι μια τεχνική μηχανικής μάθησης που
στοχεύει στη βελτιστοποίηση της ομοιότητας μεταξύ διαφορετικών σημείων δεδομένων.
́Εχει κερδίσει την προσοχή σε διάφορους τομείς, συμπεριλαμβανομένης της αναγνώρισης
συναισθημάτων ομιλίας (Speech Emotion Recognition - SER), η οποία αναφέρεται στο
έργο της αναγνώρισης της συναισθηματικής κατάστασης ενός ομιλητή από την ομιλία
του. Σε αυτή την εργασία, οι συγγραφείς διερευνούν την αποτελεσματικότητα διαφόρων
μεθόδων αντιθετικής μάθησης για το SER, συμπεριλαμβανομένων των εποπτευόμενων
απωλειών αντίθεσης (contrastive losses) (Triplet, NT-Xent, SupCon), της αυτοεποπτευ-
όμενης προεκπαίδευσης αντίθεσης και ενός συνδυασμού αυτοεπιβλεπόμενης προεκπαίδευ-
σης και εποπτευόμενης μικρορύθμισης.
Η πρώιμη εργασία στο SER επικεντρώθηκε στην εξαγωγή ενός συνόλου χαρακτηριστι-
κών συναισθημάτων και στον καθορισμό της βέλτιστης χρονικής κλίμακας για την εξαγω-
γή συναισθηματικού πλαισίου. Αυτά τα χαρακτηριστικά εξήχθησαν από πλαίσια ομιλίας
χρησιμοποιώντας Περιγραφείς Χαμηλού Επιπέδου (Low Level Descriptors - LLD) όπως
Συντελεστές Mel Cepstral Συχνότητας (MFCCs), Θεμελιώδης συχνότητα (F0), βρα-
χυχρόνια ενέργεια (Short-term Energy), ρυθμός διέλευσης από το μηδέν (Zero Crossing
Rate - ZCR) και λόγος αρμονικών προς θόρυβο (Harmonic to Noise Ration - HNR). Αυ-
τά τα LLD συγκεντρώθηκαν χρησιμοποιώντας στατιστικές συναρτήσεις ή εκπαιδεύοντας
νευρωνικά δίκτυα πάνω τους και συνοψίζοντας τα αποτελέσματα μέσω ενός μηχανισμού
προσοχής. Με την αύξηση της υπολογιστικής ισχύος, τα συστήματα SER άρχισαν να
εκτελούν εξαγωγή χαρακτηριστικών χρησιμοποιώντας νευρωνικά δίκτυα που είχαν εκπαι-
δευτεί σε φασματογράμματα ή ακόμα και ακατέργαστα σήματα ομιλίας.
Πρόσφατες εργασίες στο SER προσπάθησαν να βελτιώσουν την απόδοση χρησιμοποι-
ώντας τεχνικές αντιθετικής μάθησης. Σε ορισμένες περιπτώσεις, αυτό περιλάμβανε μο-
ντέλα προ-εκπαίδευσης χρησιμοποιώντας μια αυτοεπιβλεπόμενη συνάρτηση σφάλματος α-
ντίθεσης (π.χ. NT-Xent ή Barlow Twins) και στη συνέχεια βελτίωσή τους χρησιμοποι-
ώντας μια εποπτευόμενη συνάρτηση σφάλματος τριπλής. ́Αλλοι έχουν χρησιμοποιήσει
χαρακτηριστικά από προεκπαιδευμένα μοντέλα που εκπαιδεύτηκαν χρησιμοποιώντας μια
αυτοεπιβλεπόμενη συνάρτηση σφάλματος αντίθεσης (π.χ. wav2vec 2.0).
Σε αυτή την εργασία, εφαρμόσαμε διάφορες μεθόδους αντιθετικής μάθησης και μετρήσαμε
την επίδρασή τους στο SER. Διαπιστώσαμε ότι οι εποπτευόμενες συναρτήσεις σφάλμα-
τος αντίθεσης δεν βελτίωσαν σημαντικά την απόδοση σε σύγκριση με την εποπτευόμενη
εκπαίδευση διασταυρούμενης εντροπίας (cross entropy). Ωστόσο, η αυτο-εποπτευόμενη
προ-εκπαίδευση και η εποπτευόμενη μικρορύθμιση με διασταυρούμενη εντροπία απέδωσαν
καλύτερα από την απλή εκπαίδευση με διασταυρούμενη εντροπία. Η προ-εκπαίδευση με
την NT-Xent και η μικρορύθμιση με τη συνάρτηση σφάλματος διασταυρούμενης εντροπίας
είχαν ως αποτέλεσμα την καλύτερη απόδοση. Οι συγγραφείς διαπίστωσαν επίσης ότι η
χρήση ενός μεγαλύτερου συνόλου δεδομένων για προ-εκπαίδευση βελτίωσε την απόδοση
και ότι ο συνδυασμός της αυτο-εποπτευόμενης προ-εκπαίδευσης και της εποπτευόμενης
μικρορύθμισης ήταν πιο αποτελεσματικός από κάθε προσέγγιση μόνη της.
Συνολικά, τα αποτελέσματα αυτής της εργασίας υποδηλώνουν ότι η αυτο-εποπτευόμενη
προ-εκπαίδευση και η εποπτευόμενη μικρορύθμιση με διασταυρούμενη εντροπία είναι μια
πολλά υποσχόμενη προσέγγιση για το SER και ότι η χρήση ενός μεγαλύτερου συνόλου
δεδομένων για προεκπαίδευση μπορεί να βελτιώσει περαιτέρω την απόδοση. Απαιτείται περαιτέρω έρευνα για την πλήρη κατανόηση των πλεονεκτημάτων και των περιορισμών
της αντιθετικής μάθησης για το SER. |
el |
heal.advisorName |
Potamianos, Alexandros |
en |
heal.committeeMemberName |
Stamou, Giorgos
|
en |
heal.committeeMemberName |
Potamianos, Alexandros |
en |
heal.committeeMemberName |
Katsamanis, Athanasios
|
en |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
80 σ. |
el |
heal.fullTextAvailability |
false |
|