dc.contributor.author | Δούρος, Ιωάννης | el |
dc.contributor.author | Douros, Ioannis | en |
dc.date.accessioned | 2017-07-17T08:16:51Z | |
dc.date.available | 2017-07-17T08:16:51Z | |
dc.date.issued | 2017-07-17 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/45218 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.14318 | |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Προσέγγιση πολλαπλών όψεων | el |
dc.subject | Ανάλυση κανονικής συσχέτισης | el |
dc.subject | Μηχανές διανυσματικής υποστήριξης | el |
dc.subject | Κρυφά Μαρκοβιανά μοντέλα | el |
dc.subject | Χαρακτηριστικά παραγωγής ομιλίας | el |
dc.subject | rtMRI-TIMIT database | en |
dc.subject | SMOTE | en |
dc.subject | Bag of visual words | en |
dc.subject | Multi-view approach | en |
dc.subject | Canonical correlation analysis | en |
dc.title | Πολλαπλών όψεων συνδυασμός ακουστικών χαρακτηριστικών με χαρακτηριστικά παραγωγής ομιλίας για αναγνώριση φωνημάτων στη βάση δεδομένων rtMRI-TIMIT | el |
heal.type | bachelorThesis | |
heal.classification | Αναγνώριση λόγου | el |
heal.classification | Φωνή και επεξεργασία φωνής | el |
heal.classificationURI | http://data.seab.gr/concepts/799f8d4c7c7401de28554097f477ab74767db3b1 | |
heal.classificationURI | http://data.seab.gr/concepts/d1a2d3a7e511cf6a77e693596c402b4faa37e87b | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2017-05-29 | |
heal.abstract | Σε αυτήν τη διπλωματική εργασία ερευνούμε τη χρήση πληροφοριών άρθρωσης, και πιο συγκεκριμένα δεδομένων rt-MRI της φωνητικής οδού, για τη βελτίωση της απόδοσης αναγνώρισης ομιλίας. Για τον σκοπό των πειραμάτων μας χρησιμοποιούμε δεδομένα από τη βάση δεδομένων rtMRI-TIMIT. Αρχικά, τα χαρακτηριστικά SIFT εξάγονται για κάθε πλαίσιο του βίντεο. Έπειτα οι SIFT περιγραφείς του κάθε πλασίου μετασχηματίζονται σε ένα μεμονωμένο ιστόγραμμα ανά εικόνα, με χρήση της μεθοδολογίας Bag of Visual Words. Εφόσον αυτό το είδος πληροφοριών άρθρωσης είναι δύσκολο να εξαχθεί σε μια τυπική εγκατάσταση αναγνώρισης ομιλίας, θεωρούμε ότι είναι διαθέσιμο μόνο στο στάδιο της εκπαίδευσης. Συνεπώς χρησιμοποιούμε μια προσέγγιση πολλαπλών όψεων με εφαρμογή canonical correlation analysis (CCA) σε οπτικά και ηχητικά δεδομένα. Με χρήση του πίνακα μετασχηματισμού που εξήχθη κατά τη διάρκεια του σταδίου εκπαίδευσης, μετασχηματίζουμε τα ηχητικά δεδομένα της εκπαίδευσης και της δοκιμής για να παράγουμε τα τελικά χαρακτηριστικά (συνδυασμός ακουστικών χαρακτηριστικών με χαρακτηριστικά του συστήματος παραγωγής ομιλίας) τα οποία αποτελούν την είσοδο του συστήματος αναγνώρισης. Τα πειραματικά αποτελέσματα επιδεικνύουν βελτιώσεις στην αναγνώριση φωνής συγκριτικά με την χρήση μόνο ακουστικών χαρακτηριστικών. | el |
heal.abstract | In this thesis, we investigate the use of articulatory information, and more specically rt-MRI data of the vocal tract, to improve speech recognition performance. For the purpose of our experiments, we use data from the rtMRI-TIMIT database. Firstly, SIFT features are extracted for each video frame. Afterwards, the SIFT descriptors of each frame are transformed to a single histogram per picture, by using the Bag of Visual Words methodology. Since this kind of articulatory information is dificult to acquire in typical speech recognition setups we only consider it to be available in the training phase. Thus, we use a multi-view setup approach by applying canonical correlation analysis (CCA) to visual and audio data. By using the transformation matrix, acquired during the training stage, we transform both train and test audio data to produce MFCC-articulatory features, which form the input for the recognition system. Experimental results demonstrate improvements in phone recognition in comparison with the audio-based baseline. | en |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 141 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: