HEAL DSpace

Εύρωστα ακουστικά χαρακτηριστικά για αυτόματη αναγνώριση φωνής από απόσταση

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Φλεμοτόμος, Νικόλαος el
dc.contributor.author Flemotomos, Nikolaos en
dc.date.accessioned 2016-06-17T11:35:01Z
dc.date.available 2016-06-17T11:35:01Z
dc.date.issued 2016-06-17
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/42749
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.12402
dc.rights Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ *
dc.subject Αναγνώριση φωνής από απόσταση el
dc.subject Εξαγωγή ακουστικών χαρακτηριστικών el
dc.subject Φάσμα Teager ισχύος el
dc.subject AM-FM χαρακτηριστικά el
dc.subject Teager ενέργεια el
dc.subject Distant speech recognition en
dc.subject Acoustic feature extraction en
dc.subject AM-FM features el
dc.subject Teager power spectrum el
dc.subject Teager energy el
dc.title Εύρωστα ακουστικά χαρακτηριστικά για αυτόματη αναγνώριση φωνής από απόσταση el
dc.title Robust acoustic features for distant speech recognition en
heal.type bachelorThesis
heal.classification Αναγνώριση λόγου el
heal.classification Speech and speech processing en
heal.classificationURI http://data.seab.gr/concepts/799f8d4c7c7401de28554097f477ab74767db3b1
heal.classificationURI http://data.seab.gr/concepts/d1a2d3a7e511cf6a77e693596c402b4faa37e87b
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-03-29
heal.abstract Σκοπός της παρούσης Διπλωματικής εργασίας είναι η συγκριτική μελέτη διαφόρων μεθόδων εξαγωγής χαρακτηριστικών για χρήση στο πεδίο της Αναγνώρισης Φωνής από Απόσταση, με χρήση ενός μικροφώνου. Παρόλο που τις τελευταίες λίγες δεκαετίες υπάρχουν και εφαρμόζονται επιτυχημένα σύνολα χαρακτηριστικών στην περιοχή της Αυτόματης Αναγνώρισης Φωνής, με την απόδοση των συστημάτων να είναι ικανοποιητική σε καθαρές συνθήκες, στην περίπτωση που το μικρόφωνο απομακρύνεται από το στόμα του ομιλητή, η απόδοση πέφτει σε πολύ χαμηλά επίπεδα, καθώς εισάγονται παραμορφώσεις που οφείλονται σε μία ποικιλία παραγόντων, όπως είναι ο θόρυβος υποβάθρου και η αντήχηση. Σημαντικό μέρος της εργασίας αφιερώνεται στη διεξοδική μελέτη, σε θεωρητικό και πειραματικό επίπεδο, των πλέον συχνά χρησιμοποιούμενων συνόλων χαρακτηριστικών που βασίζονται στην ενέργεια βραχέος χρόνου, των Αναφασματικών Χαρακτηριστικών στις Mel Συχνότητες (MFCCs), των συντελεστών Γραμμικής Πρόβλεψης βασισμένων στην Αντίληψη (PLPs), καθώς και παραλλαγών τους. Μέσω μιας σειράς πειραμάτων αναδεικνύεται η επίδραση που έχουν στην αναγνώριση διαφορετικές παραμετροποιήσεις κατά την εξαγωγή τους. Ακόμα, μελετώνται οι πιο συνήθεις μέθοδοι μείωσης της διαστασιμότητας· η Ανάλυση Κύριων Συνιστωσών (PCA), η Γραμμική Διακριτική Ανάλυση (LDA) και η Ετεροσκεδαστική Γραμμική Διακριτική Ανάλυση (HLDA), όπως εφαρμόζονται μετά την ένωση διαδοχικών πλαισίων χαρακτηριστικών για την καλύτερη ανάδειξη της δυναμικής του σήματος. Τέλος, εξετάζεται ο Τελεστής Teager Ενέργειας (TEO) υπό δύο σκοπιές. Πρώτον, προτείνεται ένα νέο πλαίσιο εργασίας όπου ο TEO χρησιμοποιείται στο πεδίο της συχνότητας για μείωση της υπολογιστικής πολυπλοκότητας και εισάγεται η έννοια του Φάσματος Teager Ισχύος (TPS), το οποίο μπορεί να χρησιμοποιηθεί στη ροή εργασίας γνωστών μεθόδων εξαγωγής χαρακτηριστικών, αντί του κλασικού Φάσματος Ισχύος ή σε συνδυασμό με αυτό, δίνοντας υποσχόμενα αποτελέσματα. Δεύτερον, χρησιμοποιείται στα πλαίσια του αλγορίθμου Gabor ESA για την εκτίμηση του στιγμιαίου πλάτους και της στιγμιαίας συχνότητας ενός σήματος και τη μετέπειτα εξαγωγή ποικίλων AM-FM χαρακτηριστικών. Όταν τα εν λόγω χαρακτηριστικά χρησιμοποιούνται σε συνδυασμό με τα MFCCs ή με τους Δέλτα-Φασματικούς Αναφασματικούς Συντελεστές (DSCCs) οδηγούν σε βελτιωμένα αποτελέσματα αναγνώρισης. Όλα τα πειράματα στηρίζονται σε έναν αναγνωριστή χτισμένο στο σύστημα Kaldi, ενώ χρησιμοποιούνται πραγματικά δεδομένα για αναγνώριση από απόσταση. Για την αξιολόγηση των AM-FM χαρακτηριστικών γίνεται, ακόμα, χρήση προσομοιωμένων δεδομένων με ελεγχόμενες συνθήκες θορύβου. el
heal.abstract The scope of this Diploma Thesis is the comparative study of various feature extraction methods used in the field of Distant Speech Recognition, using a single microphone. Although during the last few decades successful feature sets are being used in the area of Automatic Speech Recognition, with the final accuracy being satisfactory under clean conditions, when the microphone is moved away from the speaker’s mouth, recognition accuracy is dropped down to very low levels, because of distortions which occur due to a variety of reasons, such as background noise and reverberation. An important part of the Thesis is devoted to the meticulous study, both theoretically and experimentally, of the most often used feature sets which are based on the short-term energy, the Mel-Frequency Cepstrum Coefficients (MFCCs), the Perceptual Linear Prediction coefficients (PLPs), as well as certain variations. Through a series of experiments, the effect on the final recognition that different parametrizations have during the extraction process is highlighted. Additionally, the most usual methods of dimensionality reduction are being investigated; Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA) and Heteroscedastic Linear Discriminant Analysis (HLDA), as used after splicing successive feature frames in order to capture signal dynamics in a better way. Finally, the Teager Energy Operator (TEO) is being studied under two different views. First, a new framework is being proposed where TEO is used in the frequency domain aiming at the reduction of computational complexity and the notion of Teager Power Spectrum (TPS) is being introduced, which can be used in the workflow of known feature extraction methods, instead of the classic Power Spectrum or in combination with it, giving promising results. Second, it is used as part of Gabor ESA for the estimation of the instantaneous amplitude and the instantaneous frequency of a signal and afterwards, for the extraction of a variety of AM-FM features. When the particular features are used in combination with MFCCs or with the Delta-Spectral Cepstrum Coefficients (DSCCs), they lead to the improvement of recognition results. All the experiments are based on a recognizer built with Kaldi, while real data for distant recognition are being used. For the evaluation of AM-FM features, simulated data under controlled noise conditions are also being used. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 174 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα