HEAL DSpace

Πολλαπλών όψεων συνδυασμός ακουστικών χαρακτηριστικών με χαρακτηριστικά παραγωγής ομιλίας για αναγνώριση φωνημάτων στη βάση δεδομένων rtMRI-TIMIT

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Δούρος, Ιωάννης el
dc.contributor.author Douros, Ioannis en
dc.date.accessioned 2017-07-17T08:16:51Z
dc.date.available 2017-07-17T08:16:51Z
dc.date.issued 2017-07-17
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/45218
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14318
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Προσέγγιση πολλαπλών όψεων el
dc.subject Ανάλυση κανονικής συσχέτισης el
dc.subject Μηχανές διανυσματικής υποστήριξης el
dc.subject Κρυφά Μαρκοβιανά μοντέλα el
dc.subject Χαρακτηριστικά παραγωγής ομιλίας el
dc.subject rtMRI-TIMIT database en
dc.subject SMOTE en
dc.subject Bag of visual words en
dc.subject Multi-view approach en
dc.subject Canonical correlation analysis en
dc.title Πολλαπλών όψεων συνδυασμός ακουστικών χαρακτηριστικών με χαρακτηριστικά παραγωγής ομιλίας για αναγνώριση φωνημάτων στη βάση δεδομένων rtMRI-TIMIT el
heal.type bachelorThesis
heal.classification Αναγνώριση λόγου el
heal.classification Φωνή και επεξεργασία φωνής el
heal.classificationURI http://data.seab.gr/concepts/799f8d4c7c7401de28554097f477ab74767db3b1
heal.classificationURI http://data.seab.gr/concepts/d1a2d3a7e511cf6a77e693596c402b4faa37e87b
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-05-29
heal.abstract Σε αυτήν τη διπλωματική εργασία ερευνούμε τη χρήση πληροφοριών άρθρωσης, και πιο συγκεκριμένα δεδομένων rt-MRI της φωνητικής οδού, για τη βελτίωση της απόδοσης αναγνώρισης ομιλίας. Για τον σκοπό των πειραμάτων μας χρησιμοποιούμε δεδομένα από τη βάση δεδομένων rtMRI-TIMIT. Αρχικά, τα χαρακτηριστικά SIFT εξάγονται για κάθε πλαίσιο του βίντεο. Έπειτα οι SIFT περιγραφείς του κάθε πλασίου μετασχηματίζονται σε ένα μεμονωμένο ιστόγραμμα ανά εικόνα, με χρήση της μεθοδολογίας Bag of Visual Words. Εφόσον αυτό το είδος πληροφοριών άρθρωσης είναι δύσκολο να εξαχθεί σε μια τυπική εγκατάσταση αναγνώρισης ομιλίας, θεωρούμε ότι είναι διαθέσιμο μόνο στο στάδιο της εκπαίδευσης. Συνεπώς χρησιμοποιούμε μια προσέγγιση πολλαπλών όψεων με εφαρμογή canonical correlation analysis (CCA) σε οπτικά και ηχητικά δεδομένα. Με χρήση του πίνακα μετασχηματισμού που εξήχθη κατά τη διάρκεια του σταδίου εκπαίδευσης, μετασχηματίζουμε τα ηχητικά δεδομένα της εκπαίδευσης και της δοκιμής για να παράγουμε τα τελικά χαρακτηριστικά (συνδυασμός ακουστικών χαρακτηριστικών με χαρακτηριστικά του συστήματος παραγωγής ομιλίας) τα οποία αποτελούν την είσοδο του συστήματος αναγνώρισης. Τα πειραματικά αποτελέσματα επιδεικνύουν βελτιώσεις στην αναγνώριση φωνής συγκριτικά με την χρήση μόνο ακουστικών χαρακτηριστικών. el
heal.abstract In this thesis, we investigate the use of articulatory information, and more specically rt-MRI data of the vocal tract, to improve speech recognition performance. For the purpose of our experiments, we use data from the rtMRI-TIMIT database. Firstly, SIFT features are extracted for each video frame. Afterwards, the SIFT descriptors of each frame are transformed to a single histogram per picture, by using the Bag of Visual Words methodology. Since this kind of articulatory information is dificult to acquire in typical speech recognition setups we only consider it to be available in the training phase. Thus, we use a multi-view setup approach by applying canonical correlation analysis (CCA) to visual and audio data. By using the transformation matrix, acquired during the training stage, we transform both train and test audio data to produce MFCC-articulatory features, which form the input for the recognition system. Experimental results demonstrate improvements in phone recognition in comparison with the audio-based baseline. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 141 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα