HEAL DSpace

Multi-stage unsupervised domain adaptation for automatic speech recognition

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Damianos, Dimitrios en
dc.contributor.author Δαμιανός, Δημήτρης el
dc.date.accessioned 2025-03-26T08:27:20Z
dc.date.available 2025-03-26T08:27:20Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/61453
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29149
dc.rights Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nd/3.0/gr/ *
dc.subject Μη-εποπτευόμενη Προσαρμογή Πεδίου el
dc.subject Αυτόματη Αναγνώριση Φωνής el
dc.subject Αυτό-επίβλεψη el
dc.subject Ημί-επίβλεψη el
dc.subject Ψευδοσήμανση el
dc.subject Unsupervised Domain Adaptation en
dc.subject Automatic Speech Recognition en
dc.subject Self-supervision en
dc.subject Semi-supervision en
dc.subject Pseudo-labeling en
dc.title Multi-stage unsupervised domain adaptation for automatic speech recognition en
heal.type bachelorThesis
heal.classification Machine Learning en
heal.classification Speech Recognition en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-10-18
heal.abstract Η παρούσα διπλωματική εργασία έχει ως στόχο τη μελέτη της μη εποπτευόμενης προσαρμογής πεδίου (unsupervised domain adaptation) για την Αυτόματη Αναγνώριση Ομιλίας (Automatic Speech Recognition). Στο πλαίσιο της μη εποπτευόμενης προσαρμογής πεδίου, εργαζόμαστε με δύο διακριτές κατανομές δεδομένων, το πεδίο-πηγή και τον πεδίο-στόχο. Ενώ και τα δύο πεδία διαθέτουν δεδομένα εισόδου, οι αντίστοιχες ετικέτες είναι προσβάσιμες μόνο στο πεδίο-πηγή. Στόχος είναι η ανάπτυξη ενός μοντέλου που να μπορεί να εφαρμοστεί αποτελεσματικά στο πεδίο-στόχο, χρησιμοποιώντας τα δεδομένα και των δύο διαθέσιμων πεδίων. Στην παρούσα διατριβή συζητάμε τις βασικές αρχές της μηχανικής μάθησης και τις προκλήσεις που σχετίζονται με την αναγνώριση ομιλίας, καλύπτοντας τόσο τις παραδοσιακές όσο και τις σύγχρονες προσεγγίσεις. Στη συνέχεια, εξετάζουμε τη βιβλιογραφία σχετικά με τις μεθόδους προσαρμογής πεδίου, κατηγοριοποιώντας αυτές τις προσεγγίσεις σε τρεις κύριες ομάδες, συμπεριλαμβανομένων των τεχνικών ημι-εποπτευόμενης μάθησης (semi-supervised learning) και αυτο-επίβλεψης (self-supervision). Στην παρούσα εργασία, διερευνούμε τις δυνατότητες του Meta PL - μιας τεχνικής προσαργμογής πεδίου που έχει εφαρμοστεί στην αναγνώριση εικόνας - στην Αυτόματη Αναγνώριση Φωνής. Επιπλέον, εισάγουμε μια μεθοδολογία δύο σταδίων που συνδυάζει στρατηγικές αυτο-επίβλεψης με τεχνικές ημι-εποπτευόμενης μάθησης, η οποία έχει σχεδιαστεί για να ενισχύσει τη γενίκευση των μοντέλων Αυτόματης Αναγνώρισης Φωνής σε γλώσσες με λίγα διαθέσιμα δεδομένα, όπως η ελληνική, καθώς και σε δεδομένα με ετικέτες χαμηλής ποιότητας. Τα πειράματα μας δείχνουν ότι το Meta PL μπορεί να εφαρμοστεί επιτυχώς σε εφαρμογές Αυτόματης Αναγνώρισης Φωνής, προσφέροντας αποτελέσματα ανταγωνιστικά με προηγούμενες μεθόδους, καθώς οδηγεί σε σχετική βελτίωση της μετρικής WER κατά 4%. Επιπλέον, δείχνουμε ότι η μέθοδός μας υπερέχει σημαντικά άλλων επιλεγμένων προσεγγίσεων, προσφέροντας μια πιο αποτελεσματική λύση στο πρόβλημα προσαρμογής πεδίου στην Αυτόματη Αναγνώριση Φωνής, καθώς προσφέρει βελτίωση της μετρικής WER της τάξης του 7%. Τέλος, εξετάζουμε τους περιορισμούς σχετικά με την ενχωμάτωση της αυτόεπιβλεπόμενη μάθησης με την ημιαυτόεπιβλεπόμενη εκπαίδευση στο πλαίσιο του Meta PL και καταλήγουμε στο συμπέρασμα ότι οι αυτοεπιβλεπόμενες τεχνικές πρέπει να εφαρμόζονται ξεχωριστά από την ημιαυτόεπιβλεπόμενη μάθηση. el
heal.abstract The purpose of this diploma thesis is to study unsupervised domain adaptation for Automatic Speech Recognition. In the context of unsupervised domain adaptation, we work with two distinct data distributions, the source domain and the target domain. While both domains have available input data, corresponding labels are only accessible in the source domain. The goal is to develop a model that can be effectively applied to the target domain, leveraging both the available labeled and unlabeled data. In this dissertation, we discuss the fundamentals of machine learning and the challenges associated with speech recognition, covering both traditional and modern approaches. We then review the literature on domain adaptation methods, categorizing these approaches into three major groups, including semi-supervised learning and self-supervision techniques. In the present work, we explore the capabilities of the Meta PL domain adaptation framework - previously applied to image recognition task- for Automatic Speech Recognition. Additionally, we introduce Multi-Stage Domain Adaptation, a two-stage domain adaptation method that combines self-supervised strategies with semi-supervised techniques. Multi-Stage Domain Adaptation is designed to enhance the robustness and generalization of Automatic Speech Recognition models in the context of low-resource languages, such as Greek, and weakly supervised data where labeled data is scarce or noisy. Our extensive experiments show that Meta PL can be effectively applied to Automatic Speech Recognition tasks, resulting in an average WER improvement of 4%. Additionally, we demonstrate that Multi-Stage Domain Adaptation outperforms our baselines WER by 7% on average, providing a more robust solution for domain adaptation in Automatic Speech Recognition, especially in underrepresented linguistic settings. Finally, we examine the limitations of integrating self-supervised tasks with semi-supervised training within the Meta PL framework and conclude that self-supervised tasks should be applied separately from semi-supervised training. en
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Voulodimos, Athanasios en
heal.committeeMemberName Rodogiannis, Athanasios en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 97 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα