HEAL DSpace

Σύνθεση φωνής με υπολογιστική αεροδυναμική ανάλυση του ανθρωπινού ηχητικού σωλήνα και σύγκριση με κλασσικές μεθόδους

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Καραγιάννης, Γεώργιος el
dc.contributor.author Τσιάκουλης, Πύρρος Γ. el
dc.contributor.author Tsiakoulis, Pirros G. en
dc.date.accessioned 2011-05-18T06:57:56Z
dc.date.available 2011-05-18T06:57:56Z
dc.date.copyright 2011-05-13
dc.date.issued 2011-05-18T06:57:56Z
dc.date.submitted 2011-05-13
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/4037
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.139
dc.description 168 σ. el
dc.description.abstract Η παρούσα διατριβή έχει ως αντικείμενο την μελέτη των μη-γραμμικών φαινομένων στον ανθρώπινο ηχητικό σωλήνα και στην γλωττιδική πηγή κατά την παραγωγή φωνής, με σκοπό την βελτίωση της απόδοσης των εφαρμογών σύνθεσης και αναγνώρισης φωνής. Η ερευνητική συνεισφορά της διατριβής κινείται σε τρεις βασικούς άξονες. Πρώτον, πραγματοποιείται μια ανάλυση και καταγραφή των μη-γραμμικών φαινομένων στο ακουστικό σήμα της φωνής, δεύτερον, προτείνονται καινοτόμες ακουστικές αναπαραστάσεις για εφαρμογές αναγνώρισης φωνής, και τρίτον, περιγράφεται ένα ολοκληρωμένο σύστημα σύνθεσης φωνής τρέχουσας τεχνολογικής στάθμης. Για την ανάλυση των μη-γραμμικών φαινομένων υιοθετήσαμε το μη γραμμικό μοντέλο φωνής AM–FM, το οποίο συλλαμβάνει τα μη-γραμμικά φαινόμενα ως διαμορφώσεις πλάτους και συχνότητας στο ακουστικό σήμα φωνής. Ορίζουμε τον Δείκτη Διαμόρφωσης Πλάτους και τον Δείκτη Διαμόρφωσης Συχνότητας, οι οποίοι μετρούν τα ποσοστά διαμόρφωσης πλά- τους και συχνότητας αντίστοιχα. Αναλύουμε ένα μεγάλο σώμα φωνής μετρώντας τους δείκτες διαμόρφωσης, και εντοπίζουμε την συσχέτισή τους με βασικές παραμέτρους. Διαπιστώνεται σημαντική επίδραση της θεμελιώδους συχνότητας στην εμφάνιση μη-γραμμικών φαινομένων, και εμφανής εξάρτηση τους από το φύλο του ομιλητή και από τον τρόπο άρθρωσης. Τα αποτελέσματα της ανάλυσης αξιοποιούνται στην συνέχεια για την εξαγωγή μιας βελτιωμένης ακουστικής αναπαράστασης για αναγνώριση φωνής. Συγκεκριμένα, προτείνουμε μια αναπαράσταση που βασίζεται κατά κύριο λόγο σε ακουστικά χαρακτηριστικά συχνότητας, η οποία έχει σημαντικά πλεονεκτήματα έναντι κλασσικών ακουστικών αναπαραστάσεων. Η προτεινόμενη ακουστική αναπαράσταση συχνότητας υπολογίζεται είτε στο πεδίο του χρόνου, είτε στο πεδίο της συχνότητας με αντίστοιχες συστοιχίες φίλτρων. Στο πεδίο του χρόνου προκύπτει ως η μέση στιγμιαία συχνότητα με στάθμιση ενέργειας, ενώ στο πεδίο της συχνότητας υπολογίζεται ως η πρώτη φασματική ροπή επίσης με κανονικοποίηση ως προς την ενέργεια. Επιπλέον, εντοπίζουμε την βέλτιστη αλγοριθμική παραμετροποίηση για την προτεινόμενη αναπαράσταση, αφενός σε ότι αφορά την συστοιχία των φίλτρων, και αφετέρου σχετικά με την αποσυσχέτιση του ακουστικού διανύσματος. Η αξιολόγηση της προτεινόμενης ακουστικής αναπαράστασης έδειξε ότι έχει καλύτερη απόδοση αναγνώρισης από κλασσικές μεθόδους, σε ηχογραφήσεις με ή χωρίς θόρυβο. Τέλος, παρουσιάζουμε ένα ολοκληρωμένο σύστημα σύνθεσης φωνής από κείμενο που ενσωματώνει τεχνολογία τρέχουσας τεχνολογικής στάθμης. Συγκεκριμένα, πρόκειται για ένα σύστημα σύνθεσης φωνής που βασίζεται στην επιλογή στοιχειωδών μονάδων φωνής από ένα ηχογραφημένο σώμα κειμένων, ενώ παράλληλα ενσωματώνει ένα σύστημα κανονικοποίησης κειμένου που λαμβάνει υπόψη την πλούσια μορφολογία της Ελληνικής γλώσσας. Προτείνουμε επίσης μεθόδους για την βελτιστοποίηση του συστήματος ως προς το υπολογιστικό φορτίο του αλγορίθμου επιλογής, και ως προς τις απαιτήσεις σε αποθηκευτικούς πόρους. el
dc.description.abstract The thesis studies the non-linear phenomena in the vocal tract and glottal source during speech production, so as to improve speech applications, such as speech synthesis and speech recognition. The thesis’ contribution is threefold. Firstly, we formally analyze non-linear phenomena as reflected in the speech signal, secondly, we propose novel acoustic features for speech recognition, and thirdly, we describe a complete state-of-the-art text-to-speech system. The analysis of non-linear phenomena is indirectly performed in the speech signal with the aid of the non-linear AM–FM speech model, which captures the non-linear phenomena as amplitude and frequency modulations. We define Amplitude Modulation Index and Frequency Modulation Index that measure the amplitude and frequency modulation percentages respectively. We estimate the modulation indexes on a large speech corpus, and analyze the correlations with various factors. Fundamental frequency is an important factor for the appearance of non-linear phenomena, while gender and manner of articulation are strong correlates. We then exploit the analysis’ results to develop a better acoustic front-end for speech recognition. Specifically, we propose a novel acoustic representation based primarily on frequency features, that has significant advantages compared to standard representations. The proposed frequency acoustic features can be estimated in either time or frequency domain utilizing corresponding filterbanks. The time domain estimation is computed as the averaged instantaneous frequency normalized by the energy, while the frequency domain estimation is equal to the first spectral moment also normalized by the energy. Moreover, we find the optimal algorithmic parametrization for the computation of the proposed features regarding the filterbank setup, and the decorrelation of the feature vector. The evaluation shows that the proposed feature has superior performance than alternative standard front-ends, both for clean and noisy recording conditions. Finally, we present a complete text-to-speech system that incorporates state-of-the-art techniques. Specifically, the system is based on the selection of elementary speech units from a large speech corpus, namely it is a unit selection system. Moreover, it incorporates a sophisticated text preprocessing front-end tailored to the rich morphology of the Greek language. Furthermore, we propose a novel technique for the optimization both in terms of computational load and storage resources. en
dc.description.statementofresponsibility Πύρρος Γ. Τσιάκουλης el
dc.format.extent 331 bytes
dc.format.mimetype text/xml
dc.language.iso el en
dc.rights ETDRestricted-policy.xml en
dc.subject Σύνθεση φωνής el
dc.subject Αναγνώριση φωνής el
dc.subject Ανάλυση φωνής el
dc.subject Μοντέλο φωνής AM-FM el
dc.subject Ακουστικά χαρακτηριστικά el
dc.subject Φασματικές ροπές el
dc.subject Speech synthesis en
dc.subject Speech recognition en
dc.subject Speech analysis en
dc.subject AM-FM speech model en
dc.subject Acoustic features en
dc.subject Spectral moments en
dc.title Σύνθεση φωνής με υπολογιστική αεροδυναμική ανάλυση του ανθρωπινού ηχητικού σωλήνα και σύγκριση με κλασσικές μεθόδους el
dc.title.alternative Speech analysis with a non-linear speech model and feature extraction for speech recognition en
dc.type doctoralThesis el (en)
dc.date.accepted 2011-05-06
dc.date.modified 2011-05-13
dc.contributor.advisorcommitteemember Ποταμιάνος, Aλέξανδρος el
dc.contributor.advisorcommitteemember Μαραγκός, Πέτρος el
dc.contributor.committeemember Καραγιάννης, Γεώργιος el
dc.contributor.committeemember Ποταμιάνος, Αλέξανδρος el
dc.contributor.committeemember Μαραγκός, Πέτρος el
dc.contributor.committeemember Σταφυλοπάτης, Ανδρέας-Γεώργιος el
dc.contributor.committeemember Μέρτζιος, Β. el
dc.contributor.committeemember Ποταμιάνος, Γ. (ΕΚΕΦΕ Δημόκριτος) el
dc.contributor.committeemember Σελλής, Τιμολέων el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου & Ρομποτικής el
dc.date.recordmanipulation.recordcreated 2011-05-18
dc.date.recordmanipulation.recordmodified 2011-05-18


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής