HEAL DSpace

Σύνθεση φωνής από κείμενο στα Ελληνικά

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Αγγελακόπουλος, Χαράλαμπος el
dc.contributor.author Angelakopoulos, Charalampos en
dc.date.accessioned 2023-01-11T12:14:20Z
dc.date.available 2023-01-11T12:14:20Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56627
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24325
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Μηχανική Μάθηση el
dc.subject Βαθιά Μάθηση el
dc.subject Text-to-speech en
dc.subject Mean Opinion Score en
dc.subject Tacotron2 en
dc.subject WaveGlow en
dc.title Σύνθεση φωνής από κείμενο στα Ελληνικά el
heal.type masterThesis
heal.secondaryTitle Text-to-speech synthesis in Greek en
heal.classification Μηχανική Μάθηση el
heal.classification Σύνθεση φωνής από κείμενο el
heal.classification Ελληνικά el
heal.classification Tacotron2 en
heal.classification WaveGlow en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-10-31
heal.abstract Η παρούσα διπλωματική εργασία πραγματεύεται το πρόβλημα της σύνθεσης φωνής από κείμενο (text-to-speech) στα ελληνικά. Η σύνθεση φωνής από κείμενο είναι η διαδικασία σύμφωνα με την οποία ένα σύστημα π.χ. ένας υπολογιστής, μετατρέπει ένα κείμενο σε ηχητικό δείγμα που περιλαμβάνει την αντίστοιχη ομιλία. Τα τελευταία χρόνια αναπτύσσονται αρκετές εφαρμογές που στηρίζονται στη σύνθεσης φωνής από κείμενο και χρησιμοποιούνται ακόμα και σε εταιρικά περιβάλλοντα για να βελτιώσουν την αλληλεπίδραση με τους χρήστες και τους πελάτες (π.χ conversational assistants). Επίσης ένα πολύ γνωστό παράδειγμα που βασίζεται στη σύνθεση φωνής είναι το Google Translate μέσω του οποίου μπορεί κανείς να πληκτρολογήσει ένα κείμενο και να ακούσει τον τρόπο με τον οποίο εκφωνείται σε μια συγκεκριμένη γλώσσα. Επιπλέον η υπηρεσία Polly της Amazon μπορεί να χρησιμοποιηθεί για ανάπτυξη εφαρμογών που στηρίζονται στη μετατροπή ενός κειμένου σε ανθρώπινη ομιλία σε αρκετές γλώσσες. Τέλος, τα λεγόμενα audio-books και τα avatars βασίζονται επίσης στη σύνθεση φωνής από κείμενο. Για τέτοιου είδους εφαρμογές, πέραν της φυσικότητας απαιτείται και η ενσωμάτωση χαρακτηριστικών όπως το συναίσθημα και η προσωδία στην παραγόμενη ομιλία. Τα παραπάνω παρουσιάζονται στο πρώτο κεφάλαιο της ερ- γασίας όπου γίνεται μια εισαγωγή στο πρόβλημα που μελετάμε. Αναφέρουμε τις βασικότερες προσεγγίσεις πάνω στο πρόβλημα της σύνθεσης φωνής, οι οποίες είναι η συναθροιστική, η στατιστική-παραμετρική και το neural TTS, εστιάζοντας κυρίως στην τελευταία και πιο σύγχρονη προσέγγιση. Ταυτόχρονα γίνεται αναφορά στον τρόπο εξαγωγής ακουστικών χαρακτηριστικών (mel spectrogram), που χρησιμοποιούνται για την εκπαίδευση και τη συμπερασματολογία ενός συστήματος παραγωγής ομιλίας. Στο δεύτερο κεφάλαιο αναλύουμε τις βασικότερες state-of-the-art αρχιτεκτονικές που στηρίζονται στη χρήση βαθιών νευρωνικών δικτύων. Ως επί το πλείστον τα μοντέλα αυτά αποτελούνται από δύο ξεχωριστά τμήματα. Το πρώτο τμήμα δέχεται το κείμενο και παράγει ενδιάμεσα χαρακτηριστικά όπως το φασματογράφημα στην κλίμακα mel. Στην κατηγορία αυτή ανήκουν μοντέλα όπως το Tacotron, το Tacotron2, ο Transformer TTS κ.ά. Το δεύτερο τμήμα αποτελείται από ένα μοντέλο vocoder όπως το WaveNet ή το WaveGlow, προκειμένου να μετατρέψει τα ενδιάμεσα χαρακτηριστικά στην τελική κυματομορφή ήχου. Τέλος παρουσιάζεται το μοντέλο WaveGrad2 που μπορεί να παράγει απευθείας συνθετική ομιλία από ένα κείμενο χωρίς την εξαγωγή ενδιάμεσων χαρακτηριστικών. ́Ολα τα παραπάνω μοντέλα πετυχαίνουν πολύ ικανοποιητικά αποτελέσματα με συνθετική φωνή που αγγίζει τα ανθρώπινα επίπεδα, αξιολογώντας τα σύμφωνα με την κλίμακα MOS (Mean Opinion Score). Παρ’ όλ’ αυτά στα αρνητικά τους συγκαταλέγεται ο μεγάλος χρόνος αλλά και η μεγάλη υπολογιστική ισχύς που απαιτείται κατά την εκπαίδευσή τους. Στο τρίτο κεφάλαιο παρουσιάζουμε ορισμένα ειδικά θέματα στη σύνθεση φωνής από κείμενο. ́Οπως αναφέραμε, σε τέτοιου είδους συστήματα πέρα από τη φυσικότητα είναι σημαντική η προσθήκη συναισθήματος και προσωδίας στην τελική ομιλία. ́Ενα μοντέλο που επιτυγχάνει τα παραπάνω είναι το Global Style Tokens, μέσω του οποίου μπορούν να ρυθμιστούν χαρακτηριστικά του παραγόμενου ήχου όπως το στυλ, ο τόνος η ταχύτητα κ.ά. Επιπλέον για γλώσσες που δεν υπάρχουν αρκετά διαθέσιμα δεδομένα για εκπαίδευση ενός μοντέλου (low resource languages), μπορούν να αξιοποιηθούν μέθοδοι όπως το LRSpeech ή η επαύξηση δεδομένων (data augmentation) για τη δημιουργία νέων συνθετικών δειγμάτων τα οποία με τη σειρά τους αξιοποιούνται για εκπαίδευση ενός συστήματος TTS στη γλώσσα και το στυλ που επιθυμούμε. Στο τελευταίο κεφάλαιο γίνεται μελέτη του προβλήματος της σύνθεσης φωνής στα ελληνικά. Αρχικά εκπαιδεύουμε τα μοντέλα Tacotron2 και WaveGlow στην ισπανική γλώσσα όπου υπάρχουν αρκετά διαθέσιμα δεδομένα ηχογραφήσεων από έναν ομιλητή. ́Επειτα χρησιμοποιούμε την τεχνική της μεταφοράς μάθησης για να εκπαιδεύσουμε τα συγκεκριμένα μοντέλα στην ελληνική γλώσσα, όπου τα διαθέσιμα δεδομένα είναι λιγότερα. Επειδή η ποιότητα των παραγόμενων δειγμάτων δεν ήταν αρκετά ικανοποιητική, προχωρήσαμε σε συλλογή νέων δεδομένων από μια μόνο ομιλήτρια στην ελληνική γλώσσα συνολικής διάρκειας ηχογραφήσεων περίπου 19.5 ώρες. Τα καλύτερα αποτελέσματα προέκυψαν με χρήση της μεταφοράς μάθησης και με την αξιοποίηση του νέου συνόλου δεδομένων στα ελληνικά. Τα παραγόμενα ηχητικά δείγματα αξιολογούνται ως προς τη φυσικότητά τους στην κλίμακα MOS μέσω ερωτηματολογίου. Από τα αποτελέσματα που προκύπτουν, διαπιστώνεται ότι η ποιότητα της συνθετικής φωνής από τα πειράματά μας στα ελληνικά είναι σχετικά καλή, εντούτοις υπάρχει ακόμα περιθώριο βελτίωσης προκειμένου η παραγόμενη φωνή να είναι πιο κοντά στα ανθρώπινα επίπεδα, ώστε να μπορεί να χρησιμοποιηθεί σε μια εφαρμογή. Κλείνοντας, παρουσιάζουμε τα τελικά συμπεράσματα αλλά και ορισμένες μελλοντικές επεκτάσεις όσον αφορά το πρόβλημα της σύνθεσης φωνής από κείμενο στα ελληνικά. el
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 106 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής