A manifold-regularized, deep neural network acoustic model for automatic speech recognition

Χαλκιαδάκης, Ιωάννης; Chalkiadakis, Ioannis

dc.contributor.author	Χαλκιαδάκης, Ιωάννης	el
dc.contributor.author	Chalkiadakis, Ioannis	en
dc.date.accessioned	2016-07-20T11:38:28Z
dc.date.available	2016-07-20T11:38:28Z
dc.date.issued	2016-07-20
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/43193
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.13386
dc.rights	Default License
dc.subject	Βαθιά νευρωνικά δίκτυα	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Μάθηση πολλαπλοτήτων	el
dc.subject	Αυτόματη αναγνώριση φωνής	el
dc.subject	Ακουστικό μοντέλο	el
dc.subject	Deep neural networks	en
dc.subject	Machine learning	en
dc.subject	Manifold learning	en
dc.subject	Automatic speech recognition	en
dc.subject	Acoustic modeling	en
dc.title	A manifold-regularized, deep neural network acoustic model for automatic speech recognition	en
dc.title	Χρήση βαθιών νευρωνικών δικτύων και πολλαπλοτήτων για την εκπαίδευση ακουστικού μοντέλου για αυτόματη αναγνώριση φωνής	el
heal.type	bachelorThesis
heal.classification	Machine learning	en
heal.classification	Automatic speech recognition	en
heal.classification	Manifold learning	en
heal.classificationURI	http://id.loc.gov/authorities/subjects/sh85079324
heal.classificationURI	http://id.loc.gov/authorities/subjects/sh85010109
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2016-06-10
heal.abstract	Ο στόχος της παρούσας μελέτης ήταν να μελετήσει αρχιτεκτονικές βαθιών νευρωνικών δικτύων οι οποίες έχουν λάβει τεράστια προσοχή κατά τη διάρκεια των τελευταίων ετών, λόγω της επιτυχίας τους σε εφαρμογές που ενδιαφέρουν την επιστημονική κοινότητα μηχανικής μάθησης. Το πεδίο εφαρμογής που επιλέξαμε ήταν η αυτόματη αναγνώριση φωνής, δεδομένου ότι οι περισσότερες ανακαλύψεις στα βαθιά νευρωνικά δίκτυα παρουσιάστηκαν για πρώτη φορά σε εφαρμογές αναγνώρισης φωνής. Επιπλέον, υιοθετήσαμε μια προσέγγιση με χρήση πολλαπλοτήτων για την βελτίωση του κριτηρίου εκπαίδευσης του δικτύου. Η ιδέα (Tomar και Rose, 2014) είναι ότι αν καταφέρουμε να διατηρήσουμε, μέσω του δικτύου, τις σχέσεις των δεδομένων εισόδου που επιβάλονται από τη δομή της πολλαπλότητας, θα μάθουμε μια πιο ακριβή και εύρωστη κατανομή των κλάσεων φωνημάτων που βρίσκονται στα δεδομένα εισόδου. Ο αλγόριθμος που θα διατηρήσει τις σχέσεις των δεδομένων εισόδου που επιβάλονται από τη δομή της πολλαπλότητας, χρησιμοποιεί τις κλάσεις φωνημάτων και τις αποστάσεις μεταξύ των χαρακτηριστικών της φωνής για να μάθει την υποκείμενη πολλαπλότητα. Αρχικά δίνουμε μια εισαγωγή στο χώρο της αυτόματης αναγνώρισης ομιλίας με βαθιά νευρωνικά δίκτυα. Στη συνέχεια περιγράφουμε λεπτομερώς τη δουλειά που πραγματοποιήσαμε, τον τρόπο που ενσωματώσαμε την πολλαπλότητα στο βαθύ νευρωνικό δίκτυο, καθώς και τις προκλήσεις που αντιμετωπίσαμε κατά τη διάρκεια της εργασίας. Τέλος, παρουσιάζονται τα πειραματικά αποτελέσματα και επακόλουθες παρατηρήσεις. Επιπλέον πληροφορίες για την εργασία μπορούν να βρεθούν στο repository https://ychalkiad@bitbucket.org/ ychalkiad/lpda.git.	el
heal.abstract	The goal of the current project was to study deep architectures of neural networks which have received tremendous attention during the past few years, because of their success in tasks of interest to the machine learning community. The application field that we selected was automatic speech recognition, given that most breakthroughs in deep learning have first occurred in speech recognition tasks. In addition, we adopted a manifold approach for the regularization of the training criterion of the network. The idea (Tomar and Rose, 2014) is that, if we manage to maintain the manifold-constrained relationships of speech input data through the network, we will learn a more accurate and robust against noise distribution over speech units. The algorithm that will maintain the manifold-imposed relations uses classes of speech units and distances between speech features to learn the underlying manifold. We first give an introduction to the area of automatic speech recognition with deep neural networks and then describe in detail the manifold regularized network we built, the way we incorporated the manifold criterion in the deep neural network as well as challenges we faced during development. Finally, experimental results and subsequent remarks are given. Extra information about the project can be found in https://ychalkiad@bitbucket.org/ ychalkiad/lpda.git .	en
heal.advisorName	Ποταμιάνος, Αλέξανδρος	el
heal.committeeMemberName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Narayanan, Shrikanth	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	181 σ.
heal.fullTextAvailability	true