dc.contributor.author | Tzinis, Efthymios | en |
dc.contributor.author | Τζίνης, Ευθύμιος | el |
dc.date.accessioned | 2018-07-20T10:06:34Z | |
dc.date.available | 2018-07-20T10:06:34Z | |
dc.date.issued | 2018-07-20 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/47369 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.15536 | |
dc.rights | Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/gr/ | * |
dc.subject | Nonlinear recurrence dynamics | en |
dc.subject | Speech emotion recognition | en |
dc.subject | Recurrence plot | en |
dc.subject | Multidimensional scaling | en |
dc.subject | Manifold learning | en |
dc.subject | Μη γραμμικές δυναμικές επαναληψιμότητας | el |
dc.subject | Αναγνώριση συναισθημάτων από φωνή | el |
dc.subject | Γράφημα επαναληψιμότητας | el |
dc.subject | Πολυδιάστατη κλιμάκωση | el |
dc.subject | Μάθηση πολλαπλοτήτων | el |
dc.title | Manifold learning and nonlinear recurrence dynamics for speech emotion recognition on various timescales | en |
dc.title | Μάθηση πολλαπλοτήτων και μη γραμμικές δυναμικές επαναληψιμότητας για αναγνώριση συναισθήματος από φωνή σε ποικίλες χρονικές κλίμακες | el |
heal.type | bachelorThesis | |
heal.classification | Machine learning | en |
heal.classification | Speech processing systems | en |
heal.classification | Computer science | en |
heal.classificationURI | http://id.loc.gov/authorities/subjects/sh85079324 | |
heal.classificationURI | http://id.loc.gov/authorities/subjects/sh85126450 | |
heal.classificationURI | http://id.loc.gov/authorities/subjects/sh89003285 | |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2018-06-21 | |
heal.abstract | In this work we investigate Speech Emotion Recognition (SER) by following three different approaches which are outlined below. For the evaluation of each approach, we use multiple datasets and experimental setups which are also followed by the literature. Moreover, both utterance-based and segment-based classification methods are followed where each emotional utterance is represented by one feature vector and a list of vectors, respectively. First, we explore the efficacy of various time-scales (frame, phoneme, word or utterance) for deciding the emotional content of a speech utterance for both Low Level Descriptors (LLDs) (local features) and statistical functionals (global features). By combining Recurrent Neural Networks (RNNs) and statistical functionals over segments that roughly correspond to the duration of a couple of words, we report state-of-the-art results on IEMOCAP. Purportedly, choosing the appropriate time-scale is key for high performing SER systems. In addition, we investigate the performance of features that can capture nonlinear recurrence dynamics embedded in the speech signal for SER. Reconstruction of the phase space of each speech frame and the computation of its respective Recurrence Plot (RP) reveals complex structures which can be measured by performing Recurrence Quantification Analysis (RQA). These measures are aggregated by using statistical functionals over segment and utterance periods. We report SER results for the proposed feature set on three databases using different classification methods. When fusing the proposed features with traditional feature sets, we show an improvement in unweighted accuracy of up to 5.7% and 10.7% on Speaker-Dependent (SD) and Speaker-Independent (SI) SER tasks, respectively, over the baseline feature set. Following a segment-based approach we demonstrate state-of-the-art performance on IEMOCAP using an attention-based Bidirectional RNN. Finally, we reduce the dimensionality of acoustic features used for SER by using manifold learning algorithms. In essence, we present a novel algorithm for nonlinear manifold learning using derivative-free optimization techniques, namely, Pattern Search MDS. By using General Pattern Search (GPS) formulation we are able to provide theoretical convergence guarantees up to first order stationary points for the proposed algorithm. Moreover, we demonstrate practical improvements of the proposed algorithm in terms of computational efficiency, convergence rate and solution accuracy on various experimental setups. Our results suggest that our algorithm is capable of finding solutions to the general problem of multidimensional scaling (MDS) under multiple setups. In accordance with our focus on SER, we evaluate Pattern Search MDS as briefly discussed next. Each emotional utterance is represented by a feature vector lying in a high dimensional space. In order to reduce the dimensionality of these emotional feature vectors, we try to approximate an underlying low-dimensional manifold in which the initial pairwise distances are also preserved. We show that a significant reduction in terms of input dimensionality and training time can be achieved by simultaneously maintaining SER accuracy at a competitive level. | en |
heal.abstract | Στην εργασία αυτή διερευνούμε την αναγνώριση συναισθημάτων από φωνή (SER) ακολουθώντας τρεις διαφορετικές προσεγγίσεις που περιγράφονται παρακάτω. Για την αξιολόγηση κάθε προσέγγισης, χρησιμοποιούμε πολλαπλά σύνολα δεδομένων και πειραματικές μεθόδους που ακολουθούνται και από τη βιβλιογραφία. Επιπλέον, ακολουθούνται τόσο οι μέθοδοι ταξινόμησης που βασίζονται σε ολόκληρες προτάσεις όσο και σε τμήματα ομιλίας, όπου κάθε συναισθηματική έκφραση αντιπροσωπεύεται από ένα διάνυσμα στοιχείων και από έναν κατάλογο διανυσμάτων, αντίστοιχα. Πρώτον, διερευνάμε την αποτελεσματικότητα των διαφόρων χρονικών κλιμάκων (παραθύρου, φωνήματος, λέξης ή πρότασης) για να αποφασίσουμε το συναισθηματικό περιεχόμενο μιας φράσης ομιλίας τόσο για Χαμηλού Επιπέδου Περιγραφητές (LLD) (τοπικά χαρακτηριστικά) όσο και για στατιστικά χαρακτηριστικά (υψηλού επιπέδου περιγραφητές). Συνδυάζοντας τα ανατροφοδοτούμενα νευρωνικά δίκτυα (RNN) και τις στατιστικά χαρακτηριστικά πάνω σε τμήματα που αντιστοιχούν περίπου στη διάρκεια μερικών λέξεων, αναφέρουμε τα καλύτερα αποτελέσματα στην βάση δεδομένων IEMOCAP. Προφανώς, η επιλογή της κατάλληλης χρονικής κλίμακας είναι μια πολύ σημαντική παράμετρος για να υλοποιήσουμε συστήματα SER υψηλής απόδοσης. Επιπλέον, διερευνάται η απόδοση των χαρακτηριστικών που μπορούν να καταγράψουν τη δυναμική μη γραμμικής επαναληψιμότητας (μη-γραμμικές υποτροπιάζουσες δυναμικές συστημάτων) που ενσωματώνεται στο σήμα ομιλίας για την SER. Η ανακατασκευή του χώρου φάσης κάθε πλαισίου ομιλίας και ο υπολογισμός του αντίστοιχου γραφήματος επαναληψιμότητας (RP) αποκαλύπτει πολύπλοκες δομές που μπορούν να μετρηθούν με την εκτέλεση της ποσοτικής ανάλυσης επαναληψιμότητας (RQA). Αυτά τα μέτρα συγκεντρώνονται υπολογίζοντας τιμές στατιστικών συναρτήσεων ανά συγκεκριμένες χρονικές κλίμακες τμημάτων συναισθηματικής ομιλίας η ακόμη και ολόκληρης της έκφρασης. Αναφέρουμε τα αποτελέσματα SER για την προτεινόμενη προσέγγιση σε τρεις βάσεις δεδομένων χρησιμοποιώντας διαφορετικές μεθόδους ταξινόμησης. Όταν συνδυάζουμε τα προτεινόμενα χαρακτηριστικά με τα παραδοσιακά σύνολα χαρακτηριστικών, παρατηρούμε μια βελτίωση της μη σταθμισμένης ακρίβειας μέχρι 5.7 % και 10.7 % για τα πειράματα SER Εξαρτημένου-Ομιλητή (SD) και Ανεξαρτήτως-Ομιλητή (SI), αντίστοιχα. Ακολουθώντας μια προσέγγιση που βασίζεται σε τμήματα, επιδεικνύουμε τις καλύτερες επιδόσεις στην βάση δεδομένων IEMOCAP χρησιμοποιώντας ένα αμφίδρομο RNN με μηχανισμό προσοχής. Τέλος, μειώνουμε τη διάσταση των ακουστικών χαρακτηριστικών που χρησιμοποιούνται για SER, χρησιμοποιώντας αλγόριθμους μάθησης πολλαπλότητας. Στην ουσία, παρουσιάζουμε έναν νέο αλγόριθμο για τη μη γραμμική μάθηση πολλαπλοτήτων για ποικίλες εφαρμογές, χρησιμοποιώντας τεχνικές βελτιστοποίησης χωρίς τον υπολογισμό της παραγώγου. Χρησιμοποιώντας την ενοποιημένη φόρμουλα των αλγορίθμων Γενικής Αναζήτησης Μοτίβων (GPS) είμαστε σε θέση να παρέχουμε εγγυήσεις θεωρητικής σύγκλισης μέχρι τα στάσιμα σημεία πρώτης τάξης για τον προτεινόμενο αλγόριθμο. Επιπλέον, επιδεικνύουμε πρακτικές βελτιώσεις στον προτεινόμενο αλγόριθμο όσον αφορά την υπολογιστική αποδοτικότητα, το ρυθμό σύγκλισης και την ακρίβεια της λύσης σε διάφορες πειραματικές ρυθμίσεις. Τα αποτελέσματά μας υποδεικνύουν ότι ο αλγόριθμος μας είναι σε θέση να βρει λύσεις στο γενικό πρόβλημα της πολυδιάστατης κλιμάκωσης (MDS) κάτω από πολλαπλές παραμετροποιήσεις. Σύμφωνα με την εστίασή μας στην αναγνώριση συναισθήματος από φωνή, αξιολογούμε το Pattern Search MDS όπως περιγράφεται παρακάτω. Κάθε συναισθηματική φράση αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών που βρίσκεται σε ένα ευκλείδιο χώρο μεγάλης διάστασης. Προκειμένου να μειωθεί η διάσταση αυτών των συναισθηματικών χαρακτηριστικών, προσπαθούμε να προσεγγίσουμε μια εμβυθισμένη χαμηλής διαστάσεως πολλαπλότητα στην οποία διατηρούνται επίσης οι αρχικές αποστάσεις ανά ζευγάρι διανυσμάτων. Δείχνουμε ότι μπορεί να επιτευχθεί σημαντική μείωση όσον αφορά τη διαστασιμότητα των δεδομένων εισόδου και τον χρόνο εκπαίδευσης, διατηρώντας ταυτόχρονα την ακρίβεια της SER σε ανταγωνιστικό επίπεδο. | el |
heal.advisorName | Potamianos, Alexandros | en |
heal.advisorName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Maragos, Petros | en |
heal.committeeMemberName | Stamou, Giorgos | en |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 146 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: