Manifold learning and nonlinear recurrence dynamics for speech emotion recognition on various timescales

Tzinis, Efthymios; Τζίνης, Ευθύμιος

dc.contributor.author	Tzinis, Efthymios	en
dc.contributor.author	Τζίνης, Ευθύμιος	el
dc.date.accessioned	2018-07-20T10:06:34Z
dc.date.available	2018-07-20T10:06:34Z
dc.date.issued	2018-07-20
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/47369
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.15536
dc.rights	Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-sa/3.0/gr/	*
dc.subject	Nonlinear recurrence dynamics	en
dc.subject	Speech emotion recognition	en
dc.subject	Recurrence plot	en
dc.subject	Multidimensional scaling	en
dc.subject	Manifold learning	en
dc.subject	Μη γραμμικές δυναμικές επαναληψιμότητας	el
dc.subject	Αναγνώριση συναισθημάτων από φωνή	el
dc.subject	Γράφημα επαναληψιμότητας	el
dc.subject	Πολυδιάστατη κλιμάκωση	el
dc.subject	Μάθηση πολλαπλοτήτων	el
dc.title	Manifold learning and nonlinear recurrence dynamics for speech emotion recognition on various timescales	en
dc.title	Μάθηση πολλαπλοτήτων και μη γραμμικές δυναμικές επαναληψιμότητας για αναγνώριση συναισθήματος από φωνή σε ποικίλες χρονικές κλίμακες	el
heal.type	bachelorThesis
heal.classification	Machine learning	en
heal.classification	Speech processing systems	en
heal.classification	Computer science	en
heal.classificationURI	http://id.loc.gov/authorities/subjects/sh85079324
heal.classificationURI	http://id.loc.gov/authorities/subjects/sh85126450
heal.classificationURI	http://id.loc.gov/authorities/subjects/sh89003285
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2018-06-21
heal.abstract	In this work we investigate Speech Emotion Recognition (SER) by following three different approaches which are outlined below. For the evaluation of each approach, we use multiple datasets and experimental setups which are also followed by the literature. Moreover, both utterance-based and segment-based classification methods are followed where each emotional utterance is represented by one feature vector and a list of vectors, respectively. First, we explore the efficacy of various time-scales (frame, phoneme, word or utterance) for deciding the emotional content of a speech utterance for both Low Level Descriptors (LLDs) (local features) and statistical functionals (global features). By combining Recurrent Neural Networks (RNNs) and statistical functionals over segments that roughly correspond to the duration of a couple of words, we report state-of-the-art results on IEMOCAP. Purportedly, choosing the appropriate time-scale is key for high performing SER systems. In addition, we investigate the performance of features that can capture nonlinear recurrence dynamics embedded in the speech signal for SER. Reconstruction of the phase space of each speech frame and the computation of its respective Recurrence Plot (RP) reveals complex structures which can be measured by performing Recurrence Quantification Analysis (RQA). These measures are aggregated by using statistical functionals over segment and utterance periods. We report SER results for the proposed feature set on three databases using different classification methods. When fusing the proposed features with traditional feature sets, we show an improvement in unweighted accuracy of up to 5.7% and 10.7% on Speaker-Dependent (SD) and Speaker-Independent (SI) SER tasks, respectively, over the baseline feature set. Following a segment-based approach we demonstrate state-of-the-art performance on IEMOCAP using an attention-based Bidirectional RNN. Finally, we reduce the dimensionality of acoustic features used for SER by using manifold learning algorithms. In essence, we present a novel algorithm for nonlinear manifold learning using derivative-free optimization techniques, namely, Pattern Search MDS. By using General Pattern Search (GPS) formulation we are able to provide theoretical convergence guarantees up to first order stationary points for the proposed algorithm. Moreover, we demonstrate practical improvements of the proposed algorithm in terms of computational efficiency, convergence rate and solution accuracy on various experimental setups. Our results suggest that our algorithm is capable of finding solutions to the general problem of multidimensional scaling (MDS) under multiple setups. In accordance with our focus on SER, we evaluate Pattern Search MDS as briefly discussed next. Each emotional utterance is represented by a feature vector lying in a high dimensional space. In order to reduce the dimensionality of these emotional feature vectors, we try to approximate an underlying low-dimensional manifold in which the initial pairwise distances are also preserved. We show that a significant reduction in terms of input dimensionality and training time can be achieved by simultaneously maintaining SER accuracy at a competitive level.	en
heal.abstract	Στην εργασία αυτή διερευνούμε την αναγνώριση συναισθημάτων από φωνή (SER) ακολουθώντας τρεις διαφορετικές προσεγγίσεις που περιγράφονται παρακάτω. Για την αξιολόγηση κάθε προσέγγισης, χρησιμοποιούμε πολλαπλά σύνολα δεδομένων και πειραματικές μεθόδους που ακολουθούνται και από τη βιβλιογραφία. Επιπλέον, ακολουθούνται τόσο οι μέθοδοι ταξινόμησης που βασίζονται σε ολόκληρες προτάσεις όσο και σε τμήματα ομιλίας, όπου κάθε συναισθηματική έκφραση αντιπροσωπεύεται από ένα διάνυσμα στοιχείων και από έναν κατάλογο διανυσμάτων, αντίστοιχα. Πρώτον, διερευνάμε την αποτελεσματικότητα των διαφόρων χρονικών κλιμάκων (παραθύρου, φωνήματος, λέξης ή πρότασης) για να αποφασίσουμε το συναισθηματικό περιεχόμενο μιας φράσης ομιλίας τόσο για Χαμηλού Επιπέδου Περιγραφητές (LLD) (τοπικά χαρακτηριστικά) όσο και για στατιστικά χαρακτηριστικά (υψηλού επιπέδου περιγραφητές). Συνδυάζοντας τα ανατροφοδοτούμενα νευρωνικά δίκτυα (RNN) και τις στατιστικά χαρακτηριστικά πάνω σε τμήματα που αντιστοιχούν περίπου στη διάρκεια μερικών λέξεων, αναφέρουμε τα καλύτερα αποτελέσματα στην βάση δεδομένων IEMOCAP. Προφανώς, η επιλογή της κατάλληλης χρονικής κλίμακας είναι μια πολύ σημαντική παράμετρος για να υλοποιήσουμε συστήματα SER υψηλής απόδοσης. Επιπλέον, διερευνάται η απόδοση των χαρακτηριστικών που μπορούν να καταγράψουν τη δυναμική μη γραμμικής επαναληψιμότητας (μη-γραμμικές υποτροπιάζουσες δυναμικές συστημάτων) που ενσωματώνεται στο σήμα ομιλίας για την SER. Η ανακατασκευή του χώρου φάσης κάθε πλαισίου ομιλίας και ο υπολογισμός του αντίστοιχου γραφήματος επαναληψιμότητας (RP) αποκαλύπτει πολύπλοκες δομές που μπορούν να μετρηθούν με την εκτέλεση της ποσοτικής ανάλυσης επαναληψιμότητας (RQA). Αυτά τα μέτρα συγκεντρώνονται υπολογίζοντας τιμές στατιστικών συναρτήσεων ανά συγκεκριμένες χρονικές κλίμακες τμημάτων συναισθηματικής ομιλίας η ακόμη και ολόκληρης της έκφρασης. Αναφέρουμε τα αποτελέσματα SER για την προτεινόμενη προσέγγιση σε τρεις βάσεις δεδομένων χρησιμοποιώντας διαφορετικές μεθόδους ταξινόμησης. Όταν συνδυάζουμε τα προτεινόμενα χαρακτηριστικά με τα παραδοσιακά σύνολα χαρακτηριστικών, παρατηρούμε μια βελτίωση της μη σταθμισμένης ακρίβειας μέχρι 5.7 % και 10.7 % για τα πειράματα SER Εξαρτημένου-Ομιλητή (SD) και Ανεξαρτήτως-Ομιλητή (SI), αντίστοιχα. Ακολουθώντας μια προσέγγιση που βασίζεται σε τμήματα, επιδεικνύουμε τις καλύτερες επιδόσεις στην βάση δεδομένων IEMOCAP χρησιμοποιώντας ένα αμφίδρομο RNN με μηχανισμό προσοχής. Τέλος, μειώνουμε τη διάσταση των ακουστικών χαρακτηριστικών που χρησιμοποιούνται για SER, χρησιμοποιώντας αλγόριθμους μάθησης πολλαπλότητας. Στην ουσία, παρουσιάζουμε έναν νέο αλγόριθμο για τη μη γραμμική μάθηση πολλαπλοτήτων για ποικίλες εφαρμογές, χρησιμοποιώντας τεχνικές βελτιστοποίησης χωρίς τον υπολογισμό της παραγώγου. Χρησιμοποιώντας την ενοποιημένη φόρμουλα των αλγορίθμων Γενικής Αναζήτησης Μοτίβων (GPS) είμαστε σε θέση να παρέχουμε εγγυήσεις θεωρητικής σύγκλισης μέχρι τα στάσιμα σημεία πρώτης τάξης για τον προτεινόμενο αλγόριθμο. Επιπλέον, επιδεικνύουμε πρακτικές βελτιώσεις στον προτεινόμενο αλγόριθμο όσον αφορά την υπολογιστική αποδοτικότητα, το ρυθμό σύγκλισης και την ακρίβεια της λύσης σε διάφορες πειραματικές ρυθμίσεις. Τα αποτελέσματά μας υποδεικνύουν ότι ο αλγόριθμος μας είναι σε θέση να βρει λύσεις στο γενικό πρόβλημα της πολυδιάστατης κλιμάκωσης (MDS) κάτω από πολλαπλές παραμετροποιήσεις. Σύμφωνα με την εστίασή μας στην αναγνώριση συναισθήματος από φωνή, αξιολογούμε το Pattern Search MDS όπως περιγράφεται παρακάτω. Κάθε συναισθηματική φράση αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών που βρίσκεται σε ένα ευκλείδιο χώρο μεγάλης διάστασης. Προκειμένου να μειωθεί η διάσταση αυτών των συναισθηματικών χαρακτηριστικών, προσπαθούμε να προσεγγίσουμε μια εμβυθισμένη χαμηλής διαστάσεως πολλαπλότητα στην οποία διατηρούνται επίσης οι αρχικές αποστάσεις ανά ζευγάρι διανυσμάτων. Δείχνουμε ότι μπορεί να επιτευχθεί σημαντική μείωση όσον αφορά τη διαστασιμότητα των δεδομένων εισόδου και τον χρόνο εκπαίδευσης, διατηρώντας ταυτόχρονα την ακρίβεια της SER σε ανταγωνιστικό επίπεδο.	el
heal.advisorName	Potamianos, Alexandros	en
heal.advisorName	Ποταμιάνος, Αλέξανδρος	el
heal.committeeMemberName	Maragos, Petros	en
heal.committeeMemberName	Stamou, Giorgos	en
heal.committeeMemberName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	146 σ.
heal.fullTextAvailability	true