Σύνθεση φωνής με υπολογιστική αεροδυναμική ανάλυση του ανθρωπινού ηχητικού σωλήνα και σύγκριση με κλασσικές μεθόδους

Τσιάκουλης, Πύρρος Γ.; Tsiakoulis, Pirros G.

dc.contributor.advisor	Καραγιάννης, Γεώργιος	el
dc.contributor.author	Τσιάκουλης, Πύρρος Γ.	el
dc.contributor.author	Tsiakoulis, Pirros G.	en
dc.date.accessioned	2011-05-18T06:57:56Z
dc.date.available	2011-05-18T06:57:56Z
dc.date.copyright	2011-05-13
dc.date.issued	2011-05-18T06:57:56Z
dc.date.submitted	2011-05-13
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/4037
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.139
dc.description	168 σ.	el
dc.description.abstract	Η παρούσα διατριβή έχει ως αντικείμενο την μελέτη των μη-γραμμικών φαινομένων στον ανθρώπινο ηχητικό σωλήνα και στην γλωττιδική πηγή κατά την παραγωγή φωνής, με σκοπό την βελτίωση της απόδοσης των εφαρμογών σύνθεσης και αναγνώρισης φωνής. Η ερευνητική συνεισφορά της διατριβής κινείται σε τρεις βασικούς άξονες. Πρώτον, πραγματοποιείται μια ανάλυση και καταγραφή των μη-γραμμικών φαινομένων στο ακουστικό σήμα της φωνής, δεύτερον, προτείνονται καινοτόμες ακουστικές αναπαραστάσεις για εφαρμογές αναγνώρισης φωνής, και τρίτον, περιγράφεται ένα ολοκληρωμένο σύστημα σύνθεσης φωνής τρέχουσας τεχνολογικής στάθμης. Για την ανάλυση των μη-γραμμικών φαινομένων υιοθετήσαμε το μη γραμμικό μοντέλο φωνής AM–FM, το οποίο συλλαμβάνει τα μη-γραμμικά φαινόμενα ως διαμορφώσεις πλάτους και συχνότητας στο ακουστικό σήμα φωνής. Ορίζουμε τον Δείκτη Διαμόρφωσης Πλάτους και τον Δείκτη Διαμόρφωσης Συχνότητας, οι οποίοι μετρούν τα ποσοστά διαμόρφωσης πλά- τους και συχνότητας αντίστοιχα. Αναλύουμε ένα μεγάλο σώμα φωνής μετρώντας τους δείκτες διαμόρφωσης, και εντοπίζουμε την συσχέτισή τους με βασικές παραμέτρους. Διαπιστώνεται σημαντική επίδραση της θεμελιώδους συχνότητας στην εμφάνιση μη-γραμμικών φαινομένων, και εμφανής εξάρτηση τους από το φύλο του ομιλητή και από τον τρόπο άρθρωσης. Τα αποτελέσματα της ανάλυσης αξιοποιούνται στην συνέχεια για την εξαγωγή μιας βελτιωμένης ακουστικής αναπαράστασης για αναγνώριση φωνής. Συγκεκριμένα, προτείνουμε μια αναπαράσταση που βασίζεται κατά κύριο λόγο σε ακουστικά χαρακτηριστικά συχνότητας, η οποία έχει σημαντικά πλεονεκτήματα έναντι κλασσικών ακουστικών αναπαραστάσεων. Η προτεινόμενη ακουστική αναπαράσταση συχνότητας υπολογίζεται είτε στο πεδίο του χρόνου, είτε στο πεδίο της συχνότητας με αντίστοιχες συστοιχίες φίλτρων. Στο πεδίο του χρόνου προκύπτει ως η μέση στιγμιαία συχνότητα με στάθμιση ενέργειας, ενώ στο πεδίο της συχνότητας υπολογίζεται ως η πρώτη φασματική ροπή επίσης με κανονικοποίηση ως προς την ενέργεια. Επιπλέον, εντοπίζουμε την βέλτιστη αλγοριθμική παραμετροποίηση για την προτεινόμενη αναπαράσταση, αφενός σε ότι αφορά την συστοιχία των φίλτρων, και αφετέρου σχετικά με την αποσυσχέτιση του ακουστικού διανύσματος. Η αξιολόγηση της προτεινόμενης ακουστικής αναπαράστασης έδειξε ότι έχει καλύτερη απόδοση αναγνώρισης από κλασσικές μεθόδους, σε ηχογραφήσεις με ή χωρίς θόρυβο. Τέλος, παρουσιάζουμε ένα ολοκληρωμένο σύστημα σύνθεσης φωνής από κείμενο που ενσωματώνει τεχνολογία τρέχουσας τεχνολογικής στάθμης. Συγκεκριμένα, πρόκειται για ένα σύστημα σύνθεσης φωνής που βασίζεται στην επιλογή στοιχειωδών μονάδων φωνής από ένα ηχογραφημένο σώμα κειμένων, ενώ παράλληλα ενσωματώνει ένα σύστημα κανονικοποίησης κειμένου που λαμβάνει υπόψη την πλούσια μορφολογία της Ελληνικής γλώσσας. Προτείνουμε επίσης μεθόδους για την βελτιστοποίηση του συστήματος ως προς το υπολογιστικό φορτίο του αλγορίθμου επιλογής, και ως προς τις απαιτήσεις σε αποθηκευτικούς πόρους.	el
dc.description.abstract	The thesis studies the non-linear phenomena in the vocal tract and glottal source during speech production, so as to improve speech applications, such as speech synthesis and speech recognition. The thesis’ contribution is threefold. Firstly, we formally analyze non-linear phenomena as reflected in the speech signal, secondly, we propose novel acoustic features for speech recognition, and thirdly, we describe a complete state-of-the-art text-to-speech system. The analysis of non-linear phenomena is indirectly performed in the speech signal with the aid of the non-linear AM–FM speech model, which captures the non-linear phenomena as amplitude and frequency modulations. We define Amplitude Modulation Index and Frequency Modulation Index that measure the amplitude and frequency modulation percentages respectively. We estimate the modulation indexes on a large speech corpus, and analyze the correlations with various factors. Fundamental frequency is an important factor for the appearance of non-linear phenomena, while gender and manner of articulation are strong correlates. We then exploit the analysis’ results to develop a better acoustic front-end for speech recognition. Specifically, we propose a novel acoustic representation based primarily on frequency features, that has significant advantages compared to standard representations. The proposed frequency acoustic features can be estimated in either time or frequency domain utilizing corresponding filterbanks. The time domain estimation is computed as the averaged instantaneous frequency normalized by the energy, while the frequency domain estimation is equal to the first spectral moment also normalized by the energy. Moreover, we find the optimal algorithmic parametrization for the computation of the proposed features regarding the filterbank setup, and the decorrelation of the feature vector. The evaluation shows that the proposed feature has superior performance than alternative standard front-ends, both for clean and noisy recording conditions. Finally, we present a complete text-to-speech system that incorporates state-of-the-art techniques. Specifically, the system is based on the selection of elementary speech units from a large speech corpus, namely it is a unit selection system. Moreover, it incorporates a sophisticated text preprocessing front-end tailored to the rich morphology of the Greek language. Furthermore, we propose a novel technique for the optimization both in terms of computational load and storage resources.	en
dc.description.statementofresponsibility	Πύρρος Γ. Τσιάκουλης	el
dc.format.extent	331 bytes
dc.format.mimetype	text/xml
dc.language.iso	el	en
dc.rights	ETDRestricted-policy.xml	en
dc.subject	Σύνθεση φωνής	el
dc.subject	Αναγνώριση φωνής	el
dc.subject	Ανάλυση φωνής	el
dc.subject	Μοντέλο φωνής AM-FM	el
dc.subject	Ακουστικά χαρακτηριστικά	el
dc.subject	Φασματικές ροπές	el
dc.subject	Speech synthesis	en
dc.subject	Speech recognition	en
dc.subject	Speech analysis	en
dc.subject	AM-FM speech model	en
dc.subject	Acoustic features	en
dc.subject	Spectral moments	en
dc.title	Σύνθεση φωνής με υπολογιστική αεροδυναμική ανάλυση του ανθρωπινού ηχητικού σωλήνα και σύγκριση με κλασσικές μεθόδους	el
dc.title.alternative	Speech analysis with a non-linear speech model and feature extraction for speech recognition	en
dc.type	doctoralThesis	el (en)
dc.date.accepted	2011-05-06
dc.date.modified	2011-05-13
dc.contributor.advisorcommitteemember	Ποταμιάνος, Aλέξανδρος	el
dc.contributor.advisorcommitteemember	Μαραγκός, Πέτρος	el
dc.contributor.committeemember	Καραγιάννης, Γεώργιος	el
dc.contributor.committeemember	Ποταμιάνος, Αλέξανδρος	el
dc.contributor.committeemember	Μαραγκός, Πέτρος	el
dc.contributor.committeemember	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
dc.contributor.committeemember	Μέρτζιος, Β.	el
dc.contributor.committeemember	Ποταμιάνος, Γ. (ΕΚΕΦΕ Δημόκριτος)	el
dc.contributor.committeemember	Σελλής, Τιμολέων	el
dc.contributor.department	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου & Ρομποτικής	el
dc.date.recordmanipulation.recordcreated	2011-05-18
dc.date.recordmanipulation.recordmodified	2011-05-18