HEAL DSpace

Αναγνώριση άγχους σε σήματα φωνής

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πανταζόπουλος, Γεώργιος Μιχαήλ el
dc.contributor.author Pantazopoulos, Georgios Michail en
dc.date.accessioned 2018-07-20T08:41:13Z
dc.date.available 2018-07-20T08:41:13Z
dc.date.issued 2018-07-20
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/47363
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15473
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αναγνώριση συναισθήματος el
dc.subject Αναγνώριση άγχους el
dc.subject Αναδρομικά νευρωνικά δίκτυα el
dc.subject Ομιλία el
dc.subject Emotion recognition en
dc.subject Stress detection el
dc.subject Recurrent neural networks el
dc.subject Speech el
dc.title Αναγνώριση άγχους σε σήματα φωνής el
heal.type bachelorThesis
heal.generalDescription Αναγνώριση άγχους μέσω σημάτων ανθρώπινης φωνής el
heal.classification Μηχανική μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 25-06
heal.abstract Το συναίσθημα θεωρείται αναπόσπαστο κομμάτι της ανθρώπινης επικοινωνίας καθώς καθορίζει σε μεγάλο βαθμό την αντίληψη της μεταδιδόμενης πληροφορίας από τον πομπό στον δέκτη. Μέχρι σήμερα έχει σημειωθεί σημαντική πρόοδος στον τομέα της αλληλεπίδρασης μεταξύ ανθρώπου - μηχανής, προσομοιώνοντας την διεπαφή μεταξύ των ανθρώπων. Έτσι δεδομένου της σημαντικότητας του συναισθήματος στην ανθρώπινη επικοινωνία, κρίνεται αναγκαία η έρευνα για την υπολογιστική Αναγνώριση Συναισθήματος. Στην εργασία αυτή εξετάζεται η Αναγνώριση Άγχους μέσω Σημάτων Φωνής με σκοπό την δημιουργία αναπαραστάσεων ικανών να περιγράψουν ένα σήμα φωνής και στη συνέχεια η μοντελοποίηση συστημάτων για την ορθή ταξινόμησή τους. Στον ευρύτερο κλάδο της Αναγνώρισης Συναισθήματος εξάγονται ακουστικά χαρακτηριστικά από το σήμα φωνής με στόχο την κατηγοριοποίησή του σε μία δυνατή κλάση. Με την πάροδο του χρόνου έχει αναπτυχθεί πληθώρα υπολογιστικών μοντέλων για την κατηγοριοποίηση των σημάτων. Σε παλαιότερες μελέτες θεωρείται πως το συναίσθημα εκφράζεται μονοσήμαντα σε ολόκληρο το μήκος του σήματος. Ωστόσο συχνά στην ανθρώπινη επικοινωνία το συναίσθημα εντοπίζεται σε μεμονωμένα τμήματα του σήματος φωνής. Κατά συνέπεια ενδέχεται η Αναγνώριση Συναισθήματος να επωφελείται από την ανάλυση των σημάτων μέσω μικρότερων τμημάτων. Επιπλέον το σύνολο των εξαγόμενων χαρακτηριστικών συμπυκνώνει την εμπειρική γνώση του ανθρώπου για την μοντελοποίηση των χρήσιμων ιδιοτήτων του σήματος προς κατηγοριοποίηση. Δεδομένου της απουσίας του μαθηματικού φορμαλισμού των γνώσεων του ανθρώπου για το συναίσθημα, υπάρχει έμφυτη αμφιβολία στην επίδοση μιας υπολογιστικής μηχανής. Στο πρώτο σκέλος της εργασίας εξετάζεται η κατηγοριοποίηση των σημάτων μέσω κατακερματισμού σε μικρότερα τμήματα. Αρχικά ακολουθείται η παλαιότερη προσέγγιση εξάγοντας ακουστικά χαρακτηριστικά σε ολόκληρο το σήμα φωνής και έπειτα κατασκευάζεται ένα αρχικό μοντέλο ταξινόμησης. Εμπνεόμενοι από πιο πρόσφατες μελέτες, ο κατακερματισμός των σημάτων γίνεται σε τμήματα διαφορετικής διάρκειας με σκοπό την ανάλυση της επίδρασης της διάρκειας των τμημάτων στις επιδόσεις των υπολογιστικών μοντέλων. Παράλληλα εξετάζονται δίαφορα μοντέλα μίας ή πολλαπλών διεργασιών. Τα αποτελέσματα της εργασίας δείχνουν την υπεροχή της μεθόδου κατακερματισμού των σημάτων σε σχέση με τις κλασικές μεθόδους ταξινόμησης, όπως επίσης και συγκεκριμένων πολυδιεργασικών μοντέλων ως προς τα κλασικά μονοδιεργασικά. Στη συνέχεια γίνεται η προσπάθεια εξαγωγής αναπαραστάσεων των σημάτων. Ξεκινώντας από ένα σύνολο ακουστικών χαρακτηριστικών προερχόμενα από τον ευρύτερο κλάδο Αναγώρισης Συναισθήματος συγκρίνονται δίκτυα εξαγωγής αναπαραστάσεων με κλάσικους αλγόριθμους επιλογής χαρακτηριστικών. Οι εξαγόμενες αναπαραστάσεις δείχνουν να υπερτερούν των ακουστικών χαρακτηριστικών. Μάλιστα, τα δίκτυα εξαγωγής αναπαραστάσεων σημειώνουν καλύτερες επιδόσεις από τους αλγόριθμους επιλογής χαρακτηριστικών. Τέλος δίνεται περισσότερη εκφραστικότητα στα δίκτυα, εξετάζοντας την ικανότητά εξαγωγής χρήσιμων αναπαραστάσεων όχι από τον χώρο των ακουστικών χαρακτηριστικών αλλά από μια πίο αυτούσια μορφή του σήματος φωνής. Η παρούσα έρευνα δείχνει πως αυτή η μέθοδος δεν υστερεί σε τίποτα από τις υπόλοιπες μεθόδους εξαγωγής αναπαραστάσεων από τον χώρο των ακουστικών χαρακτηριστικών, ενώ μάλιστα σε συγκεκριμένες περιπτώσεις παρουσιάζει βελτίωση. el
heal.abstract Emotion is considered as a major factor in human communications, since it defines, to a great degree, the concept of propagated information from a transmitter to a receiver. Until now there has been considerable progress in the field of human - computer interactions. Thus, given the importance of emotion in human communications, it is essential to investigate computational Emotion Recognition. This work focuses on Stress Detection via Speech Signals, aiming to construct decent speech representations and develop an automated system for emotion classification. In the broader field of Speech Emotion Recognition, a speech signal is described by extracting acoustic features, which are used for classification. Over the past years, different models have been suggested to perform speech signal emotion classification. In previous work, a speech signal is thought to contain emotional information throughout its duration. However, in human communications, emotion is contained to a few number of parts of the speech signal. Consequently, it may be beneficial for Speech Emotion Recognition to divide the signal into parts. Moreover, the acoustic features extracted from the signal reflect the empirical knowledge of humans modeling useful properties of the signal for classification. Since there is no mathematical formulation of human's knowledge in terms of emotion, there is an imminent doubt in the performance of a computational machine. The first part of this work, examines the classification of speech signals by dividing them to smaller parts. Primarily a baseline model is implemented by extracting acoustic features from the whole signal. Inspired by more recent studies, signals are divided to a variable length illustrating the impact of the duration of each part in the performances of single or multi - tasking models. The results of this work support predominance of speech fragmentation, over traditional classification methods, and multi tasking over single tasking models. The next step is to construct signal representations. Starting from a set of acoustic features originated from Emotion Recognition, the traditional feature selection algorithms are compared to representation learning networks. These representations are used for classification outperforming the original acoustic feature set. In particular, the representation learning networks achieved a higher score than the feature selection algorithms. Finally, the networks are allowed more expressiveness, by examining their ability in the extraction of useful representations, not from the space of acoustic features, but from the raw speech signal. This work illustrates that the raw speech signal approach is equal to the traditional extracting representation approaches while, in some cases, it shows improvement. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 96 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα