dc.contributor.author | Φλεμοτόμος, Νικόλαος | el |
dc.contributor.author | Flemotomos, Nikolaos | en |
dc.date.accessioned | 2016-06-17T11:35:01Z | |
dc.date.available | 2016-06-17T11:35:01Z | |
dc.date.issued | 2016-06-17 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/42749 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.12402 | |
dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ | * |
dc.subject | Αναγνώριση φωνής από απόσταση | el |
dc.subject | Εξαγωγή ακουστικών χαρακτηριστικών | el |
dc.subject | Φάσμα Teager ισχύος | el |
dc.subject | AM-FM χαρακτηριστικά | el |
dc.subject | Teager ενέργεια | el |
dc.subject | Distant speech recognition | en |
dc.subject | Acoustic feature extraction | en |
dc.subject | AM-FM features | el |
dc.subject | Teager power spectrum | el |
dc.subject | Teager energy | el |
dc.title | Εύρωστα ακουστικά χαρακτηριστικά για αυτόματη αναγνώριση φωνής από απόσταση | el |
dc.title | Robust acoustic features for distant speech recognition | en |
heal.type | bachelorThesis | |
heal.classification | Αναγνώριση λόγου | el |
heal.classification | Speech and speech processing | en |
heal.classificationURI | http://data.seab.gr/concepts/799f8d4c7c7401de28554097f477ab74767db3b1 | |
heal.classificationURI | http://data.seab.gr/concepts/d1a2d3a7e511cf6a77e693596c402b4faa37e87b | |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2016-03-29 | |
heal.abstract | Σκοπός της παρούσης Διπλωματικής εργασίας είναι η συγκριτική μελέτη διαφόρων μεθόδων εξαγωγής χαρακτηριστικών για χρήση στο πεδίο της Αναγνώρισης Φωνής από Απόσταση, με χρήση ενός μικροφώνου. Παρόλο που τις τελευταίες λίγες δεκαετίες υπάρχουν και εφαρμόζονται επιτυχημένα σύνολα χαρακτηριστικών στην περιοχή της Αυτόματης Αναγνώρισης Φωνής, με την απόδοση των συστημάτων να είναι ικανοποιητική σε καθαρές συνθήκες, στην περίπτωση που το μικρόφωνο απομακρύνεται από το στόμα του ομιλητή, η απόδοση πέφτει σε πολύ χαμηλά επίπεδα, καθώς εισάγονται παραμορφώσεις που οφείλονται σε μία ποικιλία παραγόντων, όπως είναι ο θόρυβος υποβάθρου και η αντήχηση. Σημαντικό μέρος της εργασίας αφιερώνεται στη διεξοδική μελέτη, σε θεωρητικό και πειραματικό επίπεδο, των πλέον συχνά χρησιμοποιούμενων συνόλων χαρακτηριστικών που βασίζονται στην ενέργεια βραχέος χρόνου, των Αναφασματικών Χαρακτηριστικών στις Mel Συχνότητες (MFCCs), των συντελεστών Γραμμικής Πρόβλεψης βασισμένων στην Αντίληψη (PLPs), καθώς και παραλλαγών τους. Μέσω μιας σειράς πειραμάτων αναδεικνύεται η επίδραση που έχουν στην αναγνώριση διαφορετικές παραμετροποιήσεις κατά την εξαγωγή τους. Ακόμα, μελετώνται οι πιο συνήθεις μέθοδοι μείωσης της διαστασιμότητας· η Ανάλυση Κύριων Συνιστωσών (PCA), η Γραμμική Διακριτική Ανάλυση (LDA) και η Ετεροσκεδαστική Γραμμική Διακριτική Ανάλυση (HLDA), όπως εφαρμόζονται μετά την ένωση διαδοχικών πλαισίων χαρακτηριστικών για την καλύτερη ανάδειξη της δυναμικής του σήματος. Τέλος, εξετάζεται ο Τελεστής Teager Ενέργειας (TEO) υπό δύο σκοπιές. Πρώτον, προτείνεται ένα νέο πλαίσιο εργασίας όπου ο TEO χρησιμοποιείται στο πεδίο της συχνότητας για μείωση της υπολογιστικής πολυπλοκότητας και εισάγεται η έννοια του Φάσματος Teager Ισχύος (TPS), το οποίο μπορεί να χρησιμοποιηθεί στη ροή εργασίας γνωστών μεθόδων εξαγωγής χαρακτηριστικών, αντί του κλασικού Φάσματος Ισχύος ή σε συνδυασμό με αυτό, δίνοντας υποσχόμενα αποτελέσματα. Δεύτερον, χρησιμοποιείται στα πλαίσια του αλγορίθμου Gabor ESA για την εκτίμηση του στιγμιαίου πλάτους και της στιγμιαίας συχνότητας ενός σήματος και τη μετέπειτα εξαγωγή ποικίλων AM-FM χαρακτηριστικών. Όταν τα εν λόγω χαρακτηριστικά χρησιμοποιούνται σε συνδυασμό με τα MFCCs ή με τους Δέλτα-Φασματικούς Αναφασματικούς Συντελεστές (DSCCs) οδηγούν σε βελτιωμένα αποτελέσματα αναγνώρισης. Όλα τα πειράματα στηρίζονται σε έναν αναγνωριστή χτισμένο στο σύστημα Kaldi, ενώ χρησιμοποιούνται πραγματικά δεδομένα για αναγνώριση από απόσταση. Για την αξιολόγηση των AM-FM χαρακτηριστικών γίνεται, ακόμα, χρήση προσομοιωμένων δεδομένων με ελεγχόμενες συνθήκες θορύβου. | el |
heal.abstract | The scope of this Diploma Thesis is the comparative study of various feature extraction methods used in the field of Distant Speech Recognition, using a single microphone. Although during the last few decades successful feature sets are being used in the area of Automatic Speech Recognition, with the final accuracy being satisfactory under clean conditions, when the microphone is moved away from the speaker’s mouth, recognition accuracy is dropped down to very low levels, because of distortions which occur due to a variety of reasons, such as background noise and reverberation. An important part of the Thesis is devoted to the meticulous study, both theoretically and experimentally, of the most often used feature sets which are based on the short-term energy, the Mel-Frequency Cepstrum Coefficients (MFCCs), the Perceptual Linear Prediction coefficients (PLPs), as well as certain variations. Through a series of experiments, the effect on the final recognition that different parametrizations have during the extraction process is highlighted. Additionally, the most usual methods of dimensionality reduction are being investigated; Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA) and Heteroscedastic Linear Discriminant Analysis (HLDA), as used after splicing successive feature frames in order to capture signal dynamics in a better way. Finally, the Teager Energy Operator (TEO) is being studied under two different views. First, a new framework is being proposed where TEO is used in the frequency domain aiming at the reduction of computational complexity and the notion of Teager Power Spectrum (TPS) is being introduced, which can be used in the workflow of known feature extraction methods, instead of the classic Power Spectrum or in combination with it, giving promising results. Second, it is used as part of Gabor ESA for the estimation of the instantaneous amplitude and the instantaneous frequency of a signal and afterwards, for the extraction of a variety of AM-FM features. When the particular features are used in combination with MFCCs or with the Delta-Spectral Cepstrum Coefficients (DSCCs), they lead to the improvement of recognition results. All the experiments are based on a recognizer built with Kaldi, while real data for distant recognition are being used. For the evaluation of AM-FM features, simulated data under controlled noise conditions are also being used. | en |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 174 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: