Η παρούσα διατριβή έχει ως αντικείμενο την μελέτη των μη-γραμμικών φαινομένων στον ανθρώπινο ηχητικό σωλήνα και στην γλωττιδική πηγή κατά την παραγωγή φωνής, με σκοπό την βελτίωση της απόδοσης των εφαρμογών σύνθεσης και αναγνώρισης φωνής. Η ερευνητική συνεισφορά της διατριβής κινείται σε τρεις βασικούς άξονες. Πρώτον, πραγματοποιείται μια ανάλυση και καταγραφή των μη-γραμμικών φαινομένων στο ακουστικό σήμα της φωνής, δεύτερον, προτείνονται καινοτόμες ακουστικές αναπαραστάσεις για εφαρμογές αναγνώρισης φωνής, και τρίτον, περιγράφεται ένα ολοκληρωμένο σύστημα σύνθεσης φωνής τρέχουσας τεχνολογικής στάθμης. Για την ανάλυση των μη-γραμμικών φαινομένων υιοθετήσαμε το μη γραμμικό μοντέλο φωνής AM–FM, το οποίο συλλαμβάνει τα μη-γραμμικά φαινόμενα ως διαμορφώσεις πλάτους και συχνότητας στο ακουστικό σήμα φωνής. Ορίζουμε τον Δείκτη Διαμόρφωσης Πλάτους και τον Δείκτη Διαμόρφωσης Συχνότητας, οι οποίοι μετρούν τα ποσοστά διαμόρφωσης πλά- τους και συχνότητας αντίστοιχα. Αναλύουμε ένα μεγάλο σώμα φωνής μετρώντας τους δείκτες διαμόρφωσης, και εντοπίζουμε την συσχέτισή τους με βασικές παραμέτρους. Διαπιστώνεται σημαντική επίδραση της θεμελιώδους συχνότητας στην εμφάνιση μη-γραμμικών φαινομένων, και εμφανής εξάρτηση τους από το φύλο του ομιλητή και από τον τρόπο άρθρωσης. Τα αποτελέσματα της ανάλυσης αξιοποιούνται στην συνέχεια για την εξαγωγή μιας βελτιωμένης ακουστικής αναπαράστασης για αναγνώριση φωνής. Συγκεκριμένα, προτείνουμε μια αναπαράσταση που βασίζεται κατά κύριο λόγο σε ακουστικά χαρακτηριστικά συχνότητας, η οποία έχει σημαντικά πλεονεκτήματα έναντι κλασσικών ακουστικών αναπαραστάσεων. Η προτεινόμενη ακουστική αναπαράσταση συχνότητας υπολογίζεται είτε στο πεδίο του χρόνου, είτε στο πεδίο της συχνότητας με αντίστοιχες συστοιχίες φίλτρων. Στο πεδίο του χρόνου προκύπτει ως η μέση στιγμιαία συχνότητα με στάθμιση ενέργειας, ενώ στο πεδίο της συχνότητας υπολογίζεται ως η πρώτη φασματική ροπή επίσης με κανονικοποίηση ως προς την ενέργεια. Επιπλέον, εντοπίζουμε την βέλτιστη αλγοριθμική παραμετροποίηση για την προτεινόμενη αναπαράσταση, αφενός σε ότι αφορά την συστοιχία των φίλτρων, και αφετέρου σχετικά με την αποσυσχέτιση του ακουστικού διανύσματος. Η αξιολόγηση της προτεινόμενης ακουστικής αναπαράστασης έδειξε ότι έχει καλύτερη απόδοση αναγνώρισης από κλασσικές μεθόδους, σε ηχογραφήσεις με ή χωρίς θόρυβο. Τέλος, παρουσιάζουμε ένα ολοκληρωμένο σύστημα σύνθεσης φωνής από κείμενο που ενσωματώνει τεχνολογία τρέχουσας τεχνολογικής στάθμης. Συγκεκριμένα, πρόκειται για ένα σύστημα σύνθεσης φωνής που βασίζεται στην επιλογή στοιχειωδών μονάδων φωνής από ένα ηχογραφημένο σώμα κειμένων, ενώ παράλληλα ενσωματώνει ένα σύστημα κανονικοποίησης κειμένου που λαμβάνει υπόψη την πλούσια μορφολογία της Ελληνικής γλώσσας. Προτείνουμε επίσης μεθόδους για την βελτιστοποίηση του συστήματος ως προς το υπολογιστικό φορτίο του αλγορίθμου επιλογής, και ως προς τις απαιτήσεις σε αποθηκευτικούς πόρους.
The thesis studies the non-linear phenomena in the vocal tract and glottal source during speech production, so as to improve speech applications, such as speech synthesis and speech recognition. The thesis’ contribution is threefold. Firstly, we formally analyze non-linear phenomena as reflected in the speech signal, secondly, we propose novel acoustic features for speech recognition, and thirdly, we describe a complete state-of-the-art text-to-speech system. The analysis of non-linear phenomena is indirectly performed in the speech signal with the aid of the non-linear AM–FM speech model, which captures the non-linear phenomena as amplitude and frequency modulations. We define Amplitude Modulation Index and Frequency Modulation Index that measure the amplitude and frequency modulation percentages respectively. We estimate the modulation indexes on a large speech corpus, and analyze the correlations with various factors. Fundamental frequency is an important factor for the appearance of non-linear phenomena, while gender and manner of articulation are strong correlates. We then exploit the analysis’ results to develop a better acoustic front-end for speech recognition. Specifically, we propose a novel acoustic representation based primarily on frequency features, that has significant advantages compared to standard representations. The proposed frequency acoustic features can be estimated in either time or frequency domain utilizing corresponding filterbanks. The time domain estimation is computed as the averaged instantaneous frequency normalized by the energy, while the frequency domain estimation is equal to the first spectral moment also normalized by the energy. Moreover, we find the optimal algorithmic parametrization for the computation of the proposed features regarding the filterbank setup, and the decorrelation of the feature vector. The evaluation shows that the proposed feature has superior performance than alternative standard front-ends, both for clean and noisy recording conditions. Finally, we present a complete text-to-speech system that incorporates state-of-the-art techniques. Specifically, the system is based on the selection of elementary speech units from a large speech corpus, namely it is a unit selection system. Moreover, it incorporates a sophisticated text preprocessing front-end tailored to the rich morphology of the Greek language. Furthermore, we propose a novel technique for the optimization both in terms of computational load and storage resources.