HEAL DSpace

Μη Παράλληλη, από Πολλά σε Πολλά, Μετατροπή Συναισθηματικής Ομιλίας

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κλάψας Πουλογιάννης, Κωνσταντίνος el
dc.contributor.author Klapsas Poulogiannis, Konstantinos en
dc.date.accessioned 2024-05-13T06:43:35Z
dc.date.available 2024-05-13T06:43:35Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59315
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.27011
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Συναισθηματική μετατροπή φωνής el
dc.subject Συναισθηματική ομιλία el
dc.subject Μοντελοποίηση ομιλίας el
dc.subject Μηχανική Μάθηση el
dc.subject Βαθιά Νευρωνικά Δίκτυα el
dc.subject Μη παράλληλη μετατροπή el
dc.subject Generative Adversarial Networks en
dc.subject Autoencoders en
dc.title Μη Παράλληλη, από Πολλά σε Πολλά, Μετατροπή Συναισθηματικής Ομιλίας el
heal.type bachelorThesis
heal.secondaryTitle Non parallel, many to many emotional voice conversion en
heal.classification Machine Learning en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-11-01
heal.abstract Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της μετατροπής συναισθηματικής φωνής, όπου το ζητούμενο είναι να μετατραπεί μία εκφώνηση που ειπώθηκε με ένα δεδομένο συναίσθημα σε μία εκφώνηση που ακούγεται σαν να ειπώθηκε με ένα άλλο δεδομένο συναίσθημα, χωρίς να παραμορφωθεί το περιεχόμενο της πρότασης. Επιπλέον, το μοντέλο που επιλύει αυτό το πρόβλημα εκπαιδεύεται χωρίς τη βοήθεια ενός παράλληλου συνόλου δεδομένων, όπου η ίδια έκφραση έχει ειπωθεί με διαφορετικά συναισθήματα, και χωρίς καμία πληροφορία κειμένου. Επομένως, η μόνη απαίτηση για την εργασία αυτή είναι ένα σύνολο δεδομένων συναισθηματικής ομιλίας, όχι κατ' ανάγκη μεταγραμμένο, αλλά με επισημειωμένα τα συναισθήματα. Η αρχιτεκτονική που χρησιμοποιήθηκε ως βάση για την παρούσα εργασία βασίζεται στο StarGAN-VC, ένα μοντέλο βαθύ νευρωνικού δικτύου που μαθαίνει από πολλά σε πολλά αντιστοιχίσεις μεταξύ των φασματικών χαρακτηριστικών των πεδίων του συνόλου δεδομένων. Η εκπαίδευση γίνεται χρησιμοποιώντας το πλαίσιο των GAN, όπου το μοντέλο μετατροπής προσπαθεί να ξεγελάσει ένα μοντέλο διάκρισης ώστε να αντιληφθεί την έξοδό του ως διαφορετικό πεδίο από αυτό της εισόδου. Η αρχική χρήση αυτού του μοντέλου ήταν στην μετατροπή χροιάς φωνής του ομιλητή αλλά εμείς το εφαρμόζουμε στη μετατροπή συναισθήματος. Στην συνέχεια, προτείνεται μια τροποποίηση αυτής της αρχιτεκτονικής, στην οποία η ομιλία εισόδου μετασχηματίζεται πρώτα σε έναν ανεξάρτητο από το συναίσθημα χώρο, διατηρώντας όμως όλο το περιεχόμενο της ομιλίας, πριν από την αποκωδικοποίηση στο συναίσθημα-στόχο. Ο μετασχηματισμός σε αυτόν τον ουδέτερο χώρο γίνεται με την βοήθεια ανταγωνιστικής εκπαίδευσης. Δεδομένου ότι η θεμελιώδης συχνότητα είναι σημαντικό χαρακτηριστικό της συναισθηματικής ομιλίας, και επειδή και στα δύο προηγούμενα μοντέλα ο μετασχηματισμός της γίνεται από απλή κανονικοποίηση στο ζητούμενο συναίσθημα, δοκιμάζεται και μια περαιτέρω προσαρμογή, στην οποία η θεμελιώδης συχνότητα του σήματος μετασχηματίζεται με νευρωνικά δίκτυα. Διεξάγουμε αντικειμενική αξιολόγηση στα μοντέλα, σε δύο βάσεις δεδομένων, μια ελληνική και μια αγγλική, με πέντε και επτά συναισθήματα αντίστοιχα. Η αξιολόγηση αποτελείται από μετρικές ανακατασκευής καθώς και την αξιολόγηση της ποιότητας και την ταξινόμηση συναισθήματος από προεκπαιδευμένα νευρωνικά μοντέλα. Επίσης, διεξάγουμε υποκειμενική αξιολόγηση στην ελληνική βάση δεδομένων, για την οποία χρησιμοποιούμε 25 ακροατές οι οποίοι βαθμολογούν την ποιότητα των συνθετικών προτάσεων καθώς και το συναίσθημα με το οποίο πιστεύουν ότι ειπώθηκε. Με βάση τις αντικειμενικές αξιολογήσεις και στις δύο βάσεις δεδομένων, η ικανότητα μετατροπής συναισθημάτων του προτεινόμενου μοντέλου φαίνεται να υπερέχει του βασικού μοντέλου, όμως με ταυτόχρονη μικρή μείωση της ποιότητας. Αντίστοιχα, το μοντέλο που αξιοποιεί την θεμελιώδη συχνότητα έχει ακόμα καλύτερη ικανότητα μετατροπής, με αντίστοιχα μεγαλύτερη πτώση ποιότητας. Οι υποκειμενικές αξιολογήσεις φαίνεται να υποστηρίζουν αυτά τα συμπεράσματα, με την διαφορά ότι δεν δείχνουν σημαντική διαφορά μεταξύ του βασικού μοντέλου και του προτεινόμενου σε ό,τι αφορά την ποιότητα. el
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 99 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα