dc.contributor.author |
Χαλκιαδάκης, Ιωάννης
|
el |
dc.contributor.author |
Chalkiadakis, Ioannis
|
en |
dc.date.accessioned |
2016-07-20T11:38:28Z |
|
dc.date.available |
2016-07-20T11:38:28Z |
|
dc.date.issued |
2016-07-20 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/43193 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.13386 |
|
dc.rights |
Default License |
|
dc.subject |
Βαθιά νευρωνικά δίκτυα |
el |
dc.subject |
Μηχανική μάθηση |
el |
dc.subject |
Μάθηση πολλαπλοτήτων |
el |
dc.subject |
Αυτόματη αναγνώριση φωνής |
el |
dc.subject |
Ακουστικό μοντέλο |
el |
dc.subject |
Deep neural networks |
en |
dc.subject |
Machine learning |
en |
dc.subject |
Manifold learning |
en |
dc.subject |
Automatic speech recognition |
en |
dc.subject |
Acoustic modeling |
en |
dc.title |
A manifold-regularized, deep neural network acoustic model for automatic speech recognition |
en |
dc.title |
Χρήση βαθιών νευρωνικών δικτύων και πολλαπλοτήτων για την εκπαίδευση ακουστικού μοντέλου για αυτόματη αναγνώριση φωνής |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Machine learning |
en |
heal.classification |
Automatic speech recognition |
en |
heal.classification |
Manifold learning |
en |
heal.classificationURI |
http://id.loc.gov/authorities/subjects/sh85079324 |
|
heal.classificationURI |
http://id.loc.gov/authorities/subjects/sh85010109 |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2016-06-10 |
|
heal.abstract |
Ο στόχος της παρούσας μελέτης ήταν να μελετήσει αρχιτεκτονικές βαθιών νευρωνικών δικτύων οι οποίες έχουν λάβει τεράστια προσοχή κατά τη διάρκεια των τελευταίων ετών, λόγω της επιτυχίας τους σε εφαρμογές που ενδιαφέρουν την επιστημονική κοινότητα μηχανικής μάθησης.
Το πεδίο εφαρμογής που επιλέξαμε ήταν η αυτόματη αναγνώριση φωνής, δεδομένου ότι οι περισσότερες ανακαλύψεις στα βαθιά νευρωνικά δίκτυα παρουσιάστηκαν για πρώτη φορά σε εφαρμογές αναγνώρισης φωνής. Επιπλέον, υιοθετήσαμε μια προσέγγιση με χρήση πολλαπλοτήτων για την βελτίωση του κριτηρίου εκπαίδευσης του δικτύου. Η ιδέα (Tomar και Rose, 2014) είναι ότι αν καταφέρουμε να διατηρήσουμε, μέσω του δικτύου, τις σχέσεις των δεδομένων εισόδου που επιβάλονται από τη δομή της πολλαπλότητας, θα μάθουμε μια πιο ακριβή και εύρωστη κατανομή των κλάσεων φωνημάτων που βρίσκονται στα δεδομένα εισόδου. Ο αλγόριθμος που θα διατηρήσει τις σχέσεις των δεδομένων εισόδου που επιβάλονται από τη δομή της πολλαπλότητας, χρησιμοποιεί τις κλάσεις φωνημάτων και τις αποστάσεις μεταξύ των χαρακτηριστικών της φωνής για να μάθει την υποκείμενη πολλαπλότητα.
Αρχικά δίνουμε μια εισαγωγή στο χώρο της αυτόματης αναγνώρισης ομιλίας με βαθιά νευρωνικά δίκτυα. Στη συνέχεια περιγράφουμε λεπτομερώς τη δουλειά που πραγματοποιήσαμε, τον τρόπο που ενσωματώσαμε την πολλαπλότητα στο βαθύ νευρωνικό δίκτυο, καθώς και τις προκλήσεις που αντιμετωπίσαμε κατά τη διάρκεια της εργασίας. Τέλος, παρουσιάζονται τα πειραματικά αποτελέσματα και επακόλουθες παρατηρήσεις.
Επιπλέον πληροφορίες για την εργασία μπορούν να βρεθούν στο repository https://ychalkiad@bitbucket.org/ ychalkiad/lpda.git. |
el |
heal.abstract |
The goal of the current project was to study deep architectures of neural networks which have received tremendous attention during the past few years, because of their success in tasks of interest to the machine learning community.
The application field that we selected was automatic speech recognition, given that most breakthroughs in deep learning have first occurred in speech recognition tasks. In addition, we adopted a manifold approach for the regularization of the training criterion of the network. The idea (Tomar and Rose, 2014) is that, if we manage to maintain the manifold-constrained relationships of speech input data through the network, we will learn a more accurate and robust against noise distribution over speech units. The algorithm that will maintain the manifold-imposed relations uses classes of speech units and distances between speech features to learn the underlying manifold.
We first give an introduction to the area of automatic speech recognition with deep neural networks and then describe in detail the manifold regularized network we built, the way we incorporated the manifold criterion in the deep neural network as well as challenges we faced during development. Finally, experimental results and subsequent remarks are given.
Extra information about the project can be found in https://ychalkiad@bitbucket.org/ ychalkiad/lpda.git . |
en |
heal.advisorName |
Ποταμιάνος, Αλέξανδρος |
el |
heal.committeeMemberName |
Μαραγκός, Πέτρος |
el |
heal.committeeMemberName |
Narayanan, Shrikanth |
en |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
181 σ. |
|
heal.fullTextAvailability |
true |
|