dc.contributor.author | Κλάψας Πουλογιάννης, Κωνσταντίνος | el |
dc.contributor.author | Klapsas Poulogiannis, Konstantinos | en |
dc.date.accessioned | 2024-05-13T06:43:35Z | |
dc.date.available | 2024-05-13T06:43:35Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/59315 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.27011 | |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Συναισθηματική μετατροπή φωνής | el |
dc.subject | Συναισθηματική ομιλία | el |
dc.subject | Μοντελοποίηση ομιλίας | el |
dc.subject | Μηχανική Μάθηση | el |
dc.subject | Βαθιά Νευρωνικά Δίκτυα | el |
dc.subject | Μη παράλληλη μετατροπή | el |
dc.subject | Generative Adversarial Networks | en |
dc.subject | Autoencoders | en |
dc.title | Μη Παράλληλη, από Πολλά σε Πολλά, Μετατροπή Συναισθηματικής Ομιλίας | el |
heal.type | bachelorThesis | |
heal.secondaryTitle | Non parallel, many to many emotional voice conversion | en |
heal.classification | Machine Learning | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-11-01 | |
heal.abstract | Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της μετατροπής συναισθηματικής φωνής, όπου το ζητούμενο είναι να μετατραπεί μία εκφώνηση που ειπώθηκε με ένα δεδομένο συναίσθημα σε μία εκφώνηση που ακούγεται σαν να ειπώθηκε με ένα άλλο δεδομένο συναίσθημα, χωρίς να παραμορφωθεί το περιεχόμενο της πρότασης. Επιπλέον, το μοντέλο που επιλύει αυτό το πρόβλημα εκπαιδεύεται χωρίς τη βοήθεια ενός παράλληλου συνόλου δεδομένων, όπου η ίδια έκφραση έχει ειπωθεί με διαφορετικά συναισθήματα, και χωρίς καμία πληροφορία κειμένου. Επομένως, η μόνη απαίτηση για την εργασία αυτή είναι ένα σύνολο δεδομένων συναισθηματικής ομιλίας, όχι κατ' ανάγκη μεταγραμμένο, αλλά με επισημειωμένα τα συναισθήματα. Η αρχιτεκτονική που χρησιμοποιήθηκε ως βάση για την παρούσα εργασία βασίζεται στο StarGAN-VC, ένα μοντέλο βαθύ νευρωνικού δικτύου που μαθαίνει από πολλά σε πολλά αντιστοιχίσεις μεταξύ των φασματικών χαρακτηριστικών των πεδίων του συνόλου δεδομένων. Η εκπαίδευση γίνεται χρησιμοποιώντας το πλαίσιο των GAN, όπου το μοντέλο μετατροπής προσπαθεί να ξεγελάσει ένα μοντέλο διάκρισης ώστε να αντιληφθεί την έξοδό του ως διαφορετικό πεδίο από αυτό της εισόδου. Η αρχική χρήση αυτού του μοντέλου ήταν στην μετατροπή χροιάς φωνής του ομιλητή αλλά εμείς το εφαρμόζουμε στη μετατροπή συναισθήματος. Στην συνέχεια, προτείνεται μια τροποποίηση αυτής της αρχιτεκτονικής, στην οποία η ομιλία εισόδου μετασχηματίζεται πρώτα σε έναν ανεξάρτητο από το συναίσθημα χώρο, διατηρώντας όμως όλο το περιεχόμενο της ομιλίας, πριν από την αποκωδικοποίηση στο συναίσθημα-στόχο. Ο μετασχηματισμός σε αυτόν τον ουδέτερο χώρο γίνεται με την βοήθεια ανταγωνιστικής εκπαίδευσης. Δεδομένου ότι η θεμελιώδης συχνότητα είναι σημαντικό χαρακτηριστικό της συναισθηματικής ομιλίας, και επειδή και στα δύο προηγούμενα μοντέλα ο μετασχηματισμός της γίνεται από απλή κανονικοποίηση στο ζητούμενο συναίσθημα, δοκιμάζεται και μια περαιτέρω προσαρμογή, στην οποία η θεμελιώδης συχνότητα του σήματος μετασχηματίζεται με νευρωνικά δίκτυα. Διεξάγουμε αντικειμενική αξιολόγηση στα μοντέλα, σε δύο βάσεις δεδομένων, μια ελληνική και μια αγγλική, με πέντε και επτά συναισθήματα αντίστοιχα. Η αξιολόγηση αποτελείται από μετρικές ανακατασκευής καθώς και την αξιολόγηση της ποιότητας και την ταξινόμηση συναισθήματος από προεκπαιδευμένα νευρωνικά μοντέλα. Επίσης, διεξάγουμε υποκειμενική αξιολόγηση στην ελληνική βάση δεδομένων, για την οποία χρησιμοποιούμε 25 ακροατές οι οποίοι βαθμολογούν την ποιότητα των συνθετικών προτάσεων καθώς και το συναίσθημα με το οποίο πιστεύουν ότι ειπώθηκε. Με βάση τις αντικειμενικές αξιολογήσεις και στις δύο βάσεις δεδομένων, η ικανότητα μετατροπής συναισθημάτων του προτεινόμενου μοντέλου φαίνεται να υπερέχει του βασικού μοντέλου, όμως με ταυτόχρονη μικρή μείωση της ποιότητας. Αντίστοιχα, το μοντέλο που αξιοποιεί την θεμελιώδη συχνότητα έχει ακόμα καλύτερη ικανότητα μετατροπής, με αντίστοιχα μεγαλύτερη πτώση ποιότητας. Οι υποκειμενικές αξιολογήσεις φαίνεται να υποστηρίζουν αυτά τα συμπεράσματα, με την διαφορά ότι δεν δείχνουν σημαντική διαφορά μεταξύ του βασικού μοντέλου και του προτεινόμενου σε ό,τι αφορά την ποιότητα. | el |
heal.advisorName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 99 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: