dc.contributor.author |
Αγγελακόπουλος, Χαράλαμπος
|
el |
dc.contributor.author |
Angelakopoulos, Charalampos
|
en |
dc.date.accessioned |
2023-01-11T12:14:20Z |
|
dc.date.available |
2023-01-11T12:14:20Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/56627 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.24325 |
|
dc.description |
Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" |
el |
dc.rights |
Default License |
|
dc.subject |
Μηχανική Μάθηση |
el |
dc.subject |
Βαθιά Μάθηση |
el |
dc.subject |
Text-to-speech |
en |
dc.subject |
Mean Opinion Score |
en |
dc.subject |
Tacotron2 |
en |
dc.subject |
WaveGlow |
en |
dc.title |
Σύνθεση φωνής από κείμενο στα Ελληνικά |
el |
heal.type |
masterThesis |
|
heal.secondaryTitle |
Text-to-speech synthesis in Greek |
en |
heal.classification |
Μηχανική Μάθηση |
el |
heal.classification |
Σύνθεση φωνής από κείμενο |
el |
heal.classification |
Ελληνικά |
el |
heal.classification |
Tacotron2 |
en |
heal.classification |
WaveGlow |
en |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2022-10-31 |
|
heal.abstract |
Η παρούσα διπλωματική εργασία πραγματεύεται το πρόβλημα της σύνθεσης φωνής από κείμενο
(text-to-speech) στα ελληνικά. Η σύνθεση φωνής από κείμενο είναι η διαδικασία σύμφωνα με
την οποία ένα σύστημα π.χ. ένας υπολογιστής, μετατρέπει ένα κείμενο σε ηχητικό δείγμα που
περιλαμβάνει την αντίστοιχη ομιλία. Τα τελευταία χρόνια αναπτύσσονται αρκετές εφαρμογές που
στηρίζονται στη σύνθεσης φωνής από κείμενο και χρησιμοποιούνται ακόμα και σε εταιρικά περιβάλλοντα για να βελτιώσουν την αλληλεπίδραση με τους χρήστες και τους πελάτες (π.χ conversational assistants). Επίσης ένα πολύ γνωστό παράδειγμα που βασίζεται στη σύνθεση φωνής είναι
το Google Translate μέσω του οποίου μπορεί κανείς να πληκτρολογήσει ένα κείμενο και να ακούσει τον τρόπο με τον οποίο εκφωνείται σε μια συγκεκριμένη γλώσσα. Επιπλέον η υπηρεσία Polly
της Amazon μπορεί να χρησιμοποιηθεί για ανάπτυξη εφαρμογών που στηρίζονται στη μετατροπή
ενός κειμένου σε ανθρώπινη ομιλία σε αρκετές γλώσσες. Τέλος, τα λεγόμενα audio-books και
τα avatars βασίζονται επίσης στη σύνθεση φωνής από κείμενο. Για τέτοιου είδους εφαρμογές,
πέραν της φυσικότητας απαιτείται και η ενσωμάτωση χαρακτηριστικών όπως το συναίσθημα και
η προσωδία στην παραγόμενη ομιλία. Τα παραπάνω παρουσιάζονται στο πρώτο κεφάλαιο της ερ-
γασίας όπου γίνεται μια εισαγωγή στο πρόβλημα που μελετάμε. Αναφέρουμε τις βασικότερες προσεγγίσεις πάνω στο πρόβλημα της σύνθεσης φωνής, οι οποίες είναι η συναθροιστική, η στατιστική-παραμετρική και το neural TTS, εστιάζοντας κυρίως στην τελευταία και πιο σύγχρονη προσέγγιση. Ταυτόχρονα γίνεται αναφορά στον τρόπο εξαγωγής ακουστικών χαρακτηριστικών (mel
spectrogram), που χρησιμοποιούνται για την εκπαίδευση και τη συμπερασματολογία ενός συστήματος παραγωγής ομιλίας. Στο δεύτερο κεφάλαιο αναλύουμε τις βασικότερες state-of-the-art
αρχιτεκτονικές που στηρίζονται στη χρήση βαθιών νευρωνικών δικτύων. Ως επί το πλείστον τα
μοντέλα αυτά αποτελούνται από δύο ξεχωριστά τμήματα. Το πρώτο τμήμα δέχεται το κείμενο και
παράγει ενδιάμεσα χαρακτηριστικά όπως το φασματογράφημα στην κλίμακα mel. Στην κατηγορία
αυτή ανήκουν μοντέλα όπως το Tacotron, το Tacotron2, ο Transformer TTS κ.ά. Το δεύτερο
τμήμα αποτελείται από ένα μοντέλο vocoder όπως το WaveNet ή το WaveGlow, προκειμένου
να μετατρέψει τα ενδιάμεσα χαρακτηριστικά στην τελική κυματομορφή ήχου. Τέλος παρουσιάζεται το μοντέλο WaveGrad2 που μπορεί να παράγει απευθείας συνθετική ομιλία από ένα κείμενο
χωρίς την εξαγωγή ενδιάμεσων χαρακτηριστικών. ́Ολα τα παραπάνω μοντέλα πετυχαίνουν πολύ
ικανοποιητικά αποτελέσματα με συνθετική φωνή που αγγίζει τα ανθρώπινα επίπεδα, αξιολογώντας
τα σύμφωνα με την κλίμακα MOS (Mean Opinion Score). Παρ’ όλ’ αυτά στα αρνητικά τους
συγκαταλέγεται ο μεγάλος χρόνος αλλά και η μεγάλη υπολογιστική ισχύς που απαιτείται κατά
την εκπαίδευσή τους. Στο τρίτο κεφάλαιο παρουσιάζουμε ορισμένα ειδικά θέματα στη σύνθεση
φωνής από κείμενο. ́Οπως αναφέραμε, σε τέτοιου είδους συστήματα πέρα από τη φυσικότητα
είναι σημαντική η προσθήκη συναισθήματος και προσωδίας στην τελική ομιλία. ́Ενα μοντέλο που
επιτυγχάνει τα παραπάνω είναι το Global Style Tokens, μέσω του οποίου μπορούν να ρυθμιστούν
χαρακτηριστικά του παραγόμενου ήχου όπως το στυλ, ο τόνος η ταχύτητα κ.ά. Επιπλέον για
γλώσσες που δεν υπάρχουν αρκετά διαθέσιμα δεδομένα για εκπαίδευση ενός μοντέλου (low resource languages), μπορούν να αξιοποιηθούν μέθοδοι όπως το LRSpeech ή η επαύξηση δεδομένων
(data augmentation) για τη δημιουργία νέων συνθετικών δειγμάτων τα οποία με τη σειρά τους αξιοποιούνται για εκπαίδευση ενός συστήματος TTS στη γλώσσα και το στυλ που επιθυμούμε. Στο
τελευταίο κεφάλαιο γίνεται μελέτη του προβλήματος της σύνθεσης φωνής στα ελληνικά. Αρχικά
εκπαιδεύουμε τα μοντέλα Tacotron2 και WaveGlow στην ισπανική γλώσσα όπου υπάρχουν αρκετά
διαθέσιμα δεδομένα ηχογραφήσεων από έναν ομιλητή. ́Επειτα χρησιμοποιούμε την τεχνική της
μεταφοράς μάθησης για να εκπαιδεύσουμε τα συγκεκριμένα μοντέλα στην ελληνική γλώσσα, όπου
τα διαθέσιμα δεδομένα είναι λιγότερα. Επειδή η ποιότητα των παραγόμενων δειγμάτων δεν ήταν
αρκετά ικανοποιητική, προχωρήσαμε σε συλλογή νέων δεδομένων από μια μόνο ομιλήτρια στην ελληνική γλώσσα συνολικής διάρκειας ηχογραφήσεων περίπου 19.5 ώρες. Τα καλύτερα αποτελέσματα
προέκυψαν με χρήση της μεταφοράς μάθησης και με την αξιοποίηση του νέου συνόλου δεδομένων
στα ελληνικά. Τα παραγόμενα ηχητικά δείγματα αξιολογούνται ως προς τη φυσικότητά τους στην
κλίμακα MOS μέσω ερωτηματολογίου. Από τα αποτελέσματα που προκύπτουν, διαπιστώνεται ότι η
ποιότητα της συνθετικής φωνής από τα πειράματά μας στα ελληνικά είναι σχετικά καλή, εντούτοις
υπάρχει ακόμα περιθώριο βελτίωσης προκειμένου η παραγόμενη φωνή να είναι πιο κοντά στα ανθρώπινα επίπεδα, ώστε να μπορεί να χρησιμοποιηθεί σε μια εφαρμογή. Κλείνοντας, παρουσιάζουμε
τα τελικά συμπεράσματα αλλά και ορισμένες μελλοντικές επεκτάσεις όσον αφορά το πρόβλημα της
σύνθεσης φωνής από κείμενο στα ελληνικά. |
el |
heal.advisorName |
Μαραγκός, Πέτρος |
el |
heal.committeeMemberName |
Μαραγκός, Πέτρος |
el |
heal.committeeMemberName |
Ποταμιάνος, Αλέξανδρος |
el |
heal.committeeMemberName |
Ροντογιάννης, Αθανάσιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
106 σ. |
el |
heal.fullTextAvailability |
false |
|