HEAL DSpace

A manifold-regularized, deep neural network acoustic model for automatic speech recognition

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Χαλκιαδάκης, Ιωάννης el
dc.contributor.author Chalkiadakis, Ioannis en
dc.date.accessioned 2016-07-20T11:38:28Z
dc.date.available 2016-07-20T11:38:28Z
dc.date.issued 2016-07-20
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/43193
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.13386
dc.rights Default License
dc.subject Βαθιά νευρωνικά δίκτυα el
dc.subject Μηχανική μάθηση el
dc.subject Μάθηση πολλαπλοτήτων el
dc.subject Αυτόματη αναγνώριση φωνής el
dc.subject Ακουστικό μοντέλο el
dc.subject Deep neural networks en
dc.subject Machine learning en
dc.subject Manifold learning en
dc.subject Automatic speech recognition en
dc.subject Acoustic modeling en
dc.title A manifold-regularized, deep neural network acoustic model for automatic speech recognition en
dc.title Χρήση βαθιών νευρωνικών δικτύων και πολλαπλοτήτων για την εκπαίδευση ακουστικού μοντέλου για αυτόματη αναγνώριση φωνής el
heal.type bachelorThesis
heal.classification Machine learning en
heal.classification Automatic speech recognition en
heal.classification Manifold learning en
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85079324
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85010109
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-06-10
heal.abstract Ο στόχος της παρούσας μελέτης ήταν να μελετήσει αρχιτεκτονικές βαθιών νευρωνικών δικτύων οι οποίες έχουν λάβει τεράστια προσοχή κατά τη διάρκεια των τελευταίων ετών, λόγω της επιτυχίας τους σε εφαρμογές που ενδιαφέρουν την επιστημονική κοινότητα μηχανικής μάθησης. Το πεδίο εφαρμογής που επιλέξαμε ήταν η αυτόματη αναγνώριση φωνής, δεδομένου ότι οι περισσότερες ανακαλύψεις στα βαθιά νευρωνικά δίκτυα παρουσιάστηκαν για πρώτη φορά σε εφαρμογές αναγνώρισης φωνής. Επιπλέον, υιοθετήσαμε μια προσέγγιση με χρήση πολλαπλοτήτων για την βελτίωση του κριτηρίου εκπαίδευσης του δικτύου. Η ιδέα (Tomar και Rose, 2014) είναι ότι αν καταφέρουμε να διατηρήσουμε, μέσω του δικτύου, τις σχέσεις των δεδομένων εισόδου που επιβάλονται από τη δομή της πολλαπλότητας, θα μάθουμε μια πιο ακριβή και εύρωστη κατανομή των κλάσεων φωνημάτων που βρίσκονται στα δεδομένα εισόδου. Ο αλγόριθμος που θα διατηρήσει τις σχέσεις των δεδομένων εισόδου που επιβάλονται από τη δομή της πολλαπλότητας, χρησιμοποιεί τις κλάσεις φωνημάτων και τις αποστάσεις μεταξύ των χαρακτηριστικών της φωνής για να μάθει την υποκείμενη πολλαπλότητα. Αρχικά δίνουμε μια εισαγωγή στο χώρο της αυτόματης αναγνώρισης ομιλίας με βαθιά νευρωνικά δίκτυα. Στη συνέχεια περιγράφουμε λεπτομερώς τη δουλειά που πραγματοποιήσαμε, τον τρόπο που ενσωματώσαμε την πολλαπλότητα στο βαθύ νευρωνικό δίκτυο, καθώς και τις προκλήσεις που αντιμετωπίσαμε κατά τη διάρκεια της εργασίας. Τέλος, παρουσιάζονται τα πειραματικά αποτελέσματα και επακόλουθες παρατηρήσεις. Επιπλέον πληροφορίες για την εργασία μπορούν να βρεθούν στο repository https://ychalkiad@bitbucket.org/ ychalkiad/lpda.git. el
heal.abstract The goal of the current project was to study deep architectures of neural networks which have received tremendous attention during the past few years, because of their success in tasks of interest to the machine learning community. The application field that we selected was automatic speech recognition, given that most breakthroughs in deep learning have first occurred in speech recognition tasks. In addition, we adopted a manifold approach for the regularization of the training criterion of the network. The idea (Tomar and Rose, 2014) is that, if we manage to maintain the manifold-constrained relationships of speech input data through the network, we will learn a more accurate and robust against noise distribution over speech units. The algorithm that will maintain the manifold-imposed relations uses classes of speech units and distances between speech features to learn the underlying manifold. We first give an introduction to the area of automatic speech recognition with deep neural networks and then describe in detail the manifold regularized network we built, the way we incorporated the manifold criterion in the deep neural network as well as challenges we faced during development. Finally, experimental results and subsequent remarks are given. Extra information about the project can be found in https://ychalkiad@bitbucket.org/ ychalkiad/lpda.git . en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Narayanan, Shrikanth en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 181 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής