HEAL DSpace

Προσαρμογή του Ομιλητή για Αναγνώριση Συναισθήματος από Φωνή

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Χατζηαγάπη, Ευαγγελία el
dc.contributor.author Chatziagapi, Evangelia en
dc.date.accessioned 2017-12-12T09:34:13Z
dc.date.available 2017-12-12T09:34:13Z
dc.date.issued 2017-12-12
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/46073
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14797
dc.rights Default License
dc.subject Προσαρμογή Ομιλητή el
dc.subject Αναγνώριση Συναισθήματος el
dc.subject Φωνή el
dc.subject Speaker Adaptation en
dc.subject Speech en
dc.subject Emotion Recognition en
dc.title Προσαρμογή του Ομιλητή για Αναγνώριση Συναισθήματος από Φωνή el
heal.type bachelorThesis
heal.classification Αναγνώριση Συναισθήματος από Φωνή el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-10-06
heal.abstract Η ένταξη της έννοιας του συναισθήματος στην αλληλεπίδραση ανθρώπου-μηχανής γίνεται όλο και πιο δημοφιλής τα τελευταία χρόνια. Άλλωστε, το συναίσθημα αποτελεί απαραίτητο στοιχείο της ανθρώπινης επικοινωνίας, καθορίζοντας σε σημαντικό βαθμό την αντίληψη της μεταδιδόμενης πληροφορίας από την άλλη πλευρά. Η παρατήρηση αυτή οδηγεί στην ανάγκη έρευνας των ιδιαίτερων ιδιοτήτων του ανθρώπου, που σχετίζονται με τη ψυχολογία του και τις νοητικές του διεργασίες. Σκοπός είναι η ανάπτυξη συστημάτων, ικανών να αντιληφθούν και πιθανώς να προσομοιώσουν ανθρώπινες συναισθηματικές αντιδράσεις. Εξάγοντας ακουστικά χαρακτηριστικά από σήμα φωνής, επιθυμείται η κατηγοριοποίησή του σε μία συναισθηματική κλάση. Πλήθος μοντέλων Αναγνώρισης Συναισθήματος από Φωνή έχει προταθεί για την υλοποίηση της κατηγοριοποίησης αυτής. Στην πράξη, κάθε μοντέλο από αυτά καλείται να αναγνωρίσει το συναίσθημα μιας εκφώνησης, η οποία πιθανότατα θα προέρχεται από διαφορετικό ομιλητή ή περιβάλλον ηχογράφησης, συγκριτικά με τα δεδομένα εκπαίδευσης. Όμως, η διαφοροποίηση αυτή, συχνά, δε λαμβάνεται υπόψη κατά την ανάπτυξη τέτοιων μοντέλων. Οπότε, το ερώτημα είναι: Πόσο σημαντικά είναι τα διαφορετικά στοιχεία φωνής των ομιλητών, κατά την αναγνώριση συναισθήματος; Στοιχεία που διαφοροποιούν τη φωνή κάθε ομιλητή από τους υπόλοιπους μπορεί να είναι βιολογικά, όπως το φύλο και η ηλικία, ή κοινωνικο-πολιτισμικά, όπως η γλώσσα, η κουλτούρα και ο προσωπικός χαρακτήρας. Μάλιστα, λόγω της ιδιαίτερης φύσης του συναισθήματος, η έκφρασή του ποικίλει σε σημαντικό βαθμό, ανάλογα με τα παραπάνω στοιχεία. Μια πρώτη προσέγγιση για τη μείωση των διαφορών αυτών είναι η κανονικοποίηση των δεδομένων, με χρήση απλών τεχνικών. Ιδιαίτερο ενδιαφέρον παρουσιάζουν μια σειρά από τεχνικές Προσαρμογής του Ομιλητή, που έχουν αναπτυχθεί στον τομέα της Αυτόματης Αναγνώρισης Φωνής. Στη συγκεκριμένη εργασία, έγινε εφαρμογή και σύγκριση των πιο βασικών από αυτές, με σκοπό την αναγνώριση συναισθήματος. Επιπλέον, ερευνήθηκαν και παραλλαγές τους. Μια άλλη προσέγγιση, δοθείσας της διαφορετικής έκφρασης των ομιλητών, είναι η εύρεση της ουδέτερης ομιλίας τους. Η γνώση των ουδέτερων χαρακτηριστικών κάθε ομιλητή καθιστά εφικτή την ανίχνευση οποιασδήποτε συναισθηματικής του φόρτισης, με σκοπό τη βελτίωση της αλληλεπίδρασης ανθρώπου-μηχανής. Σε αυτό το πνεύμα, εξελίχθηκε μια ήδη ανεπτυγμένη ιδέα συστήματος με βάση τη βιβλιογραφία. Σημαντικό χαρακτηριστικό του νέου συστήματος αποτελεί η ένταξη τεχνικής Προσαρμογής του Ομιλητή. el
heal.abstract The integration of the concept of emotion into the human-computer interaction has become more and more popular in recent years. After all, emotion is an essential element of human communication, defining to a great extent the other side's perception of the transmitted information. This observation leads to the need to investigate the particular qualities of the human, related to his psychology and mental processes. The aim is to develop systems that are capable of understanding and possibly simulating human emotional reactions. By extracting audio features from a voice signal, it is desired to categorize it in an emotional class. A great number of Speech Emotion Recognition models have been suggested to implement this categorization. In reality, each model is required to recognize the emotion of an utterance, which will probably come from a different speaker or recording environment, compared to the training data. However, this differentiation is often not taken into account in the development of such models. So the question is: How important are the different voice characteristics of the speakers, when it comes to emotion recognition? Sources of voice variability between speakers can be biological, such as gender and age, or socio-cultural, such as language, culture, and personal character. Indeed, due to the particular nature of emotion, its expression varies considerably, depending on the above. A first approach to reduce these differences is the normalization of data, using simple techniques. Of particular interest is a series of Speaker Adaptation techniques, developed in the field of Automatic Speech Recognition. In this work, we applied and compared the most basic ones, in order to recognize emotion. In addition, variants were investigated. Another approach, given the different expression of the speakers, is finding their neutral speech. The knowledge of the neutral characteristics of each speaker makes it possible to detect any emotional charge, in order to improve the human-computer interaction. In this spirit, an existing system idea based on the bibliography has been developed. An important feature of the new system is the inclusion of a Speaker Adaptation technique. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών el
heal.academicPublisherID ntua
heal.numberOfPages 104 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής