Εύρωστα ακουστικά χαρακτηριστικά για αυτόματη αναγνώριση φωνής από απόσταση

Φλεμοτόμος, Νικόλαος; Flemotomos, Nikolaos

dc.contributor.author	Φλεμοτόμος, Νικόλαος	el
dc.contributor.author	Flemotomos, Nikolaos	en
dc.date.accessioned	2016-06-17T11:35:01Z
dc.date.available	2016-06-17T11:35:01Z
dc.date.issued	2016-06-17
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/42749
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.12402
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/gr/	*
dc.subject	Αναγνώριση φωνής από απόσταση	el
dc.subject	Εξαγωγή ακουστικών χαρακτηριστικών	el
dc.subject	Φάσμα Teager ισχύος	el
dc.subject	AM-FM χαρακτηριστικά	el
dc.subject	Teager ενέργεια	el
dc.subject	Distant speech recognition	en
dc.subject	Acoustic feature extraction	en
dc.subject	AM-FM features	el
dc.subject	Teager power spectrum	el
dc.subject	Teager energy	el
dc.title	Εύρωστα ακουστικά χαρακτηριστικά για αυτόματη αναγνώριση φωνής από απόσταση	el
dc.title	Robust acoustic features for distant speech recognition	en
heal.type	bachelorThesis
heal.classification	Αναγνώριση λόγου	el
heal.classification	Speech and speech processing	en
heal.classificationURI	http://data.seab.gr/concepts/799f8d4c7c7401de28554097f477ab74767db3b1
heal.classificationURI	http://data.seab.gr/concepts/d1a2d3a7e511cf6a77e693596c402b4faa37e87b
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2016-03-29
heal.abstract	Σκοπός της παρούσης Διπλωματικής εργασίας είναι η συγκριτική μελέτη διαφόρων μεθόδων εξαγωγής χαρακτηριστικών για χρήση στο πεδίο της Αναγνώρισης Φωνής από Απόσταση, με χρήση ενός μικροφώνου. Παρόλο που τις τελευταίες λίγες δεκαετίες υπάρχουν και εφαρμόζονται επιτυχημένα σύνολα χαρακτηριστικών στην περιοχή της Αυτόματης Αναγνώρισης Φωνής, με την απόδοση των συστημάτων να είναι ικανοποιητική σε καθαρές συνθήκες, στην περίπτωση που το μικρόφωνο απομακρύνεται από το στόμα του ομιλητή, η απόδοση πέφτει σε πολύ χαμηλά επίπεδα, καθώς εισάγονται παραμορφώσεις που οφείλονται σε μία ποικιλία παραγόντων, όπως είναι ο θόρυβος υποβάθρου και η αντήχηση. Σημαντικό μέρος της εργασίας αφιερώνεται στη διεξοδική μελέτη, σε θεωρητικό και πειραματικό επίπεδο, των πλέον συχνά χρησιμοποιούμενων συνόλων χαρακτηριστικών που βασίζονται στην ενέργεια βραχέος χρόνου, των Αναφασματικών Χαρακτηριστικών στις Mel Συχνότητες (MFCCs), των συντελεστών Γραμμικής Πρόβλεψης βασισμένων στην Αντίληψη (PLPs), καθώς και παραλλαγών τους. Μέσω μιας σειράς πειραμάτων αναδεικνύεται η επίδραση που έχουν στην αναγνώριση διαφορετικές παραμετροποιήσεις κατά την εξαγωγή τους. Ακόμα, μελετώνται οι πιο συνήθεις μέθοδοι μείωσης της διαστασιμότητας· η Ανάλυση Κύριων Συνιστωσών (PCA), η Γραμμική Διακριτική Ανάλυση (LDA) και η Ετεροσκεδαστική Γραμμική Διακριτική Ανάλυση (HLDA), όπως εφαρμόζονται μετά την ένωση διαδοχικών πλαισίων χαρακτηριστικών για την καλύτερη ανάδειξη της δυναμικής του σήματος. Τέλος, εξετάζεται ο Τελεστής Teager Ενέργειας (TEO) υπό δύο σκοπιές. Πρώτον, προτείνεται ένα νέο πλαίσιο εργασίας όπου ο TEO χρησιμοποιείται στο πεδίο της συχνότητας για μείωση της υπολογιστικής πολυπλοκότητας και εισάγεται η έννοια του Φάσματος Teager Ισχύος (TPS), το οποίο μπορεί να χρησιμοποιηθεί στη ροή εργασίας γνωστών μεθόδων εξαγωγής χαρακτηριστικών, αντί του κλασικού Φάσματος Ισχύος ή σε συνδυασμό με αυτό, δίνοντας υποσχόμενα αποτελέσματα. Δεύτερον, χρησιμοποιείται στα πλαίσια του αλγορίθμου Gabor ESA για την εκτίμηση του στιγμιαίου πλάτους και της στιγμιαίας συχνότητας ενός σήματος και τη μετέπειτα εξαγωγή ποικίλων AM-FM χαρακτηριστικών. Όταν τα εν λόγω χαρακτηριστικά χρησιμοποιούνται σε συνδυασμό με τα MFCCs ή με τους Δέλτα-Φασματικούς Αναφασματικούς Συντελεστές (DSCCs) οδηγούν σε βελτιωμένα αποτελέσματα αναγνώρισης. Όλα τα πειράματα στηρίζονται σε έναν αναγνωριστή χτισμένο στο σύστημα Kaldi, ενώ χρησιμοποιούνται πραγματικά δεδομένα για αναγνώριση από απόσταση. Για την αξιολόγηση των AM-FM χαρακτηριστικών γίνεται, ακόμα, χρήση προσομοιωμένων δεδομένων με ελεγχόμενες συνθήκες θορύβου.	el
heal.abstract	The scope of this Diploma Thesis is the comparative study of various feature extraction methods used in the field of Distant Speech Recognition, using a single microphone. Although during the last few decades successful feature sets are being used in the area of Automatic Speech Recognition, with the final accuracy being satisfactory under clean conditions, when the microphone is moved away from the speaker’s mouth, recognition accuracy is dropped down to very low levels, because of distortions which occur due to a variety of reasons, such as background noise and reverberation. An important part of the Thesis is devoted to the meticulous study, both theoretically and experimentally, of the most often used feature sets which are based on the short-term energy, the Mel-Frequency Cepstrum Coefficients (MFCCs), the Perceptual Linear Prediction coefficients (PLPs), as well as certain variations. Through a series of experiments, the effect on the final recognition that different parametrizations have during the extraction process is highlighted. Additionally, the most usual methods of dimensionality reduction are being investigated; Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA) and Heteroscedastic Linear Discriminant Analysis (HLDA), as used after splicing successive feature frames in order to capture signal dynamics in a better way. Finally, the Teager Energy Operator (TEO) is being studied under two different views. First, a new framework is being proposed where TEO is used in the frequency domain aiming at the reduction of computational complexity and the notion of Teager Power Spectrum (TPS) is being introduced, which can be used in the workflow of known feature extraction methods, instead of the classic Power Spectrum or in combination with it, giving promising results. Second, it is used as part of Gabor ESA for the estimation of the instantaneous amplitude and the instantaneous frequency of a signal and afterwards, for the extraction of a variety of AM-FM features. When the particular features are used in combination with MFCCs or with the Delta-Spectral Cepstrum Coefficients (DSCCs), they lead to the improvement of recognition results. All the experiments are based on a recognizer built with Kaldi, while real data for distant recognition are being used. For the evaluation of AM-FM features, simulated data under controlled noise conditions are also being used.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Ποταμιάνος, Αλέξανδρος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.committeeMemberName	Μαραγκός, Πέτρος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	174 σ.
heal.fullTextAvailability	true