HEAL DSpace

Manifold learning and nonlinear recurrence dynamics for speech emotion recognition on various timescales

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Tzinis, Efthymios en
dc.contributor.author Τζίνης, Ευθύμιος el
dc.date.accessioned 2018-07-20T10:06:34Z
dc.date.available 2018-07-20T10:06:34Z
dc.date.issued 2018-07-20
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/47369
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15536
dc.rights Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-sa/3.0/gr/ *
dc.subject Nonlinear recurrence dynamics en
dc.subject Speech emotion recognition en
dc.subject Recurrence plot en
dc.subject Multidimensional scaling en
dc.subject Manifold learning en
dc.subject Μη γραμμικές δυναμικές επαναληψιμότητας el
dc.subject Αναγνώριση συναισθημάτων από φωνή el
dc.subject Γράφημα επαναληψιμότητας el
dc.subject Πολυδιάστατη κλιμάκωση el
dc.subject Μάθηση πολλαπλοτήτων el
dc.title Manifold learning and nonlinear recurrence dynamics for speech emotion recognition on various timescales en
dc.title Μάθηση πολλαπλοτήτων και μη γραμμικές δυναμικές επαναληψιμότητας για αναγνώριση συναισθήματος από φωνή σε ποικίλες χρονικές κλίμακες el
heal.type bachelorThesis
heal.classification Machine learning en
heal.classification Speech processing systems en
heal.classification Computer science en
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85079324
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85126450
heal.classificationURI http://id.loc.gov/authorities/subjects/sh89003285
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-06-21
heal.abstract In this work we investigate Speech Emotion Recognition (SER) by following three different approaches which are outlined below. For the evaluation of each approach, we use multiple datasets and experimental setups which are also followed by the literature. Moreover, both utterance-based and segment-based classification methods are followed where each emotional utterance is represented by one feature vector and a list of vectors, respectively. First, we explore the efficacy of various time-scales (frame, phoneme, word or utterance) for deciding the emotional content of a speech utterance for both Low Level Descriptors (LLDs) (local features) and statistical functionals (global features). By combining Recurrent Neural Networks (RNNs) and statistical functionals over segments that roughly correspond to the duration of a couple of words, we report state-of-the-art results on IEMOCAP. Purportedly, choosing the appropriate time-scale is key for high performing SER systems. In addition, we investigate the performance of features that can capture nonlinear recurrence dynamics embedded in the speech signal for SER. Reconstruction of the phase space of each speech frame and the computation of its respective Recurrence Plot (RP) reveals complex structures which can be measured by performing Recurrence Quantification Analysis (RQA). These measures are aggregated by using statistical functionals over segment and utterance periods. We report SER results for the proposed feature set on three databases using different classification methods. When fusing the proposed features with traditional feature sets, we show an improvement in unweighted accuracy of up to 5.7% and 10.7% on Speaker-Dependent (SD) and Speaker-Independent (SI) SER tasks, respectively, over the baseline feature set. Following a segment-based approach we demonstrate state-of-the-art performance on IEMOCAP using an attention-based Bidirectional RNN. Finally, we reduce the dimensionality of acoustic features used for SER by using manifold learning algorithms. In essence, we present a novel algorithm for nonlinear manifold learning using derivative-free optimization techniques, namely, Pattern Search MDS. By using General Pattern Search (GPS) formulation we are able to provide theoretical convergence guarantees up to first order stationary points for the proposed algorithm. Moreover, we demonstrate practical improvements of the proposed algorithm in terms of computational efficiency, convergence rate and solution accuracy on various experimental setups. Our results suggest that our algorithm is capable of finding solutions to the general problem of multidimensional scaling (MDS) under multiple setups. In accordance with our focus on SER, we evaluate Pattern Search MDS as briefly discussed next. Each emotional utterance is represented by a feature vector lying in a high dimensional space. In order to reduce the dimensionality of these emotional feature vectors, we try to approximate an underlying low-dimensional manifold in which the initial pairwise distances are also preserved. We show that a significant reduction in terms of input dimensionality and training time can be achieved by simultaneously maintaining SER accuracy at a competitive level. en
heal.abstract Στην εργασία αυτή διερευνούμε την αναγνώριση συναισθημάτων από φωνή (SER) ακολουθώντας τρεις διαφορετικές προσεγγίσεις που περιγράφονται παρακάτω. Για την αξιολόγηση κάθε προσέγγισης, χρησιμοποιούμε πολλαπλά σύνολα δεδομένων και πειραματικές μεθόδους που ακολουθούνται και από τη βιβλιογραφία. Επιπλέον, ακολουθούνται τόσο οι μέθοδοι ταξινόμησης που βασίζονται σε ολόκληρες προτάσεις όσο και σε τμήματα ομιλίας, όπου κάθε συναισθηματική έκφραση αντιπροσωπεύεται από ένα διάνυσμα στοιχείων και από έναν κατάλογο διανυσμάτων, αντίστοιχα. Πρώτον, διερευνάμε την αποτελεσματικότητα των διαφόρων χρονικών κλιμάκων (παραθύρου, φωνήματος, λέξης ή πρότασης) για να αποφασίσουμε το συναισθηματικό περιεχόμενο μιας φράσης ομιλίας τόσο για Χαμηλού Επιπέδου Περιγραφητές (LLD) (τοπικά χαρακτηριστικά) όσο και για στατιστικά χαρακτηριστικά (υψηλού επιπέδου περιγραφητές). Συνδυάζοντας τα ανατροφοδοτούμενα νευρωνικά δίκτυα (RNN) και τις στατιστικά χαρακτηριστικά πάνω σε τμήματα που αντιστοιχούν περίπου στη διάρκεια μερικών λέξεων, αναφέρουμε τα καλύτερα αποτελέσματα στην βάση δεδομένων IEMOCAP. Προφανώς, η επιλογή της κατάλληλης χρονικής κλίμακας είναι μια πολύ σημαντική παράμετρος για να υλοποιήσουμε συστήματα SER υψηλής απόδοσης. Επιπλέον, διερευνάται η απόδοση των χαρακτηριστικών που μπορούν να καταγράψουν τη δυναμική μη γραμμικής επαναληψιμότητας (μη-γραμμικές υποτροπιάζουσες δυναμικές συστημάτων) που ενσωματώνεται στο σήμα ομιλίας για την SER. Η ανακατασκευή του χώρου φάσης κάθε πλαισίου ομιλίας και ο υπολογισμός του αντίστοιχου γραφήματος επαναληψιμότητας (RP) αποκαλύπτει πολύπλοκες δομές που μπορούν να μετρηθούν με την εκτέλεση της ποσοτικής ανάλυσης επαναληψιμότητας (RQA). Αυτά τα μέτρα συγκεντρώνονται υπολογίζοντας τιμές στατιστικών συναρτήσεων ανά συγκεκριμένες χρονικές κλίμακες τμημάτων συναισθηματικής ομιλίας η ακόμη και ολόκληρης της έκφρασης. Αναφέρουμε τα αποτελέσματα SER για την προτεινόμενη προσέγγιση σε τρεις βάσεις δεδομένων χρησιμοποιώντας διαφορετικές μεθόδους ταξινόμησης. Όταν συνδυάζουμε τα προτεινόμενα χαρακτηριστικά με τα παραδοσιακά σύνολα χαρακτηριστικών, παρατηρούμε μια βελτίωση της μη σταθμισμένης ακρίβειας μέχρι 5.7 % και 10.7 % για τα πειράματα SER Εξαρτημένου-Ομιλητή (SD) και Ανεξαρτήτως-Ομιλητή (SI), αντίστοιχα. Ακολουθώντας μια προσέγγιση που βασίζεται σε τμήματα, επιδεικνύουμε τις καλύτερες επιδόσεις στην βάση δεδομένων IEMOCAP χρησιμοποιώντας ένα αμφίδρομο RNN με μηχανισμό προσοχής. Τέλος, μειώνουμε τη διάσταση των ακουστικών χαρακτηριστικών που χρησιμοποιούνται για SER, χρησιμοποιώντας αλγόριθμους μάθησης πολλαπλότητας. Στην ουσία, παρουσιάζουμε έναν νέο αλγόριθμο για τη μη γραμμική μάθηση πολλαπλοτήτων για ποικίλες εφαρμογές, χρησιμοποιώντας τεχνικές βελτιστοποίησης χωρίς τον υπολογισμό της παραγώγου. Χρησιμοποιώντας την ενοποιημένη φόρμουλα των αλγορίθμων Γενικής Αναζήτησης Μοτίβων (GPS) είμαστε σε θέση να παρέχουμε εγγυήσεις θεωρητικής σύγκλισης μέχρι τα στάσιμα σημεία πρώτης τάξης για τον προτεινόμενο αλγόριθμο. Επιπλέον, επιδεικνύουμε πρακτικές βελτιώσεις στον προτεινόμενο αλγόριθμο όσον αφορά την υπολογιστική αποδοτικότητα, το ρυθμό σύγκλισης και την ακρίβεια της λύσης σε διάφορες πειραματικές ρυθμίσεις. Τα αποτελέσματά μας υποδεικνύουν ότι ο αλγόριθμος μας είναι σε θέση να βρει λύσεις στο γενικό πρόβλημα της πολυδιάστατης κλιμάκωσης (MDS) κάτω από πολλαπλές παραμετροποιήσεις. Σύμφωνα με την εστίασή μας στην αναγνώριση συναισθήματος από φωνή, αξιολογούμε το Pattern Search MDS όπως περιγράφεται παρακάτω. Κάθε συναισθηματική φράση αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών που βρίσκεται σε ένα ευκλείδιο χώρο μεγάλης διάστασης. Προκειμένου να μειωθεί η διάσταση αυτών των συναισθηματικών χαρακτηριστικών, προσπαθούμε να προσεγγίσουμε μια εμβυθισμένη χαμηλής διαστάσεως πολλαπλότητα στην οποία διατηρούνται επίσης οι αρχικές αποστάσεις ανά ζευγάρι διανυσμάτων. Δείχνουμε ότι μπορεί να επιτευχθεί σημαντική μείωση όσον αφορά τη διαστασιμότητα των δεδομένων εισόδου και τον χρόνο εκπαίδευσης, διατηρώντας ταυτόχρονα την ακρίβεια της SER σε ανταγωνιστικό επίπεδο. el
heal.advisorName Potamianos, Alexandros en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Maragos, Petros en
heal.committeeMemberName Stamou, Giorgos en
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 146 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα