dc.contributor.author |
Γεώργιος, Παρασκευόπουλος
|
el |
dc.contributor.author |
Georgios, Paraskevopoulos
|
en |
dc.date.accessioned |
2024-05-28T08:33:30Z |
|
dc.date.available |
2024-05-28T08:33:30Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/59503 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.27199 |
|
dc.rights |
Αναφορά Δημιουργού 3.0 Ελλάδα |
* |
dc.subject |
Μη επιβλεπόμενη Προσαρμογή Τομέα |
el |
dc.subject |
Μείωση δαστατικότητας |
el |
dc.subject |
Αυτόματη αναγνώρισομιλίας |
el |
dc.subject |
Αυτο-επιβλεπόμενη μάθηση |
el |
dc.subject |
Αναγνώριση συναισθημάτων από κείμενο και φωνή |
el |
dc.subject |
Unsupervised Domain Adaptation |
en |
dc.subject |
Self-supervised Learning |
en |
dc.subject |
Dimensionali reduction |
en |
dc.subject |
Automatic Speech recognition |
en |
dc.subject |
Affective analysis from text and speech |
en |
dc.title |
Μέθοδοι μηχανικής μάθηση βασισμένες στη γνωσιακή επιστήμη
για μείωση διαστατικότητας και προσαρμογή μεταξύ πεδίων μοντέλων φωνής και γλώσσας σε περιβάλλοντα με περιορισμένους πόρους |
el |
dc.title |
Cognitively motivated machine learning for dimensionality
reduction and domain adaptation of speech and language models in
resource-constrained settings |
en |
heal.type |
doctoralThesis |
|
heal.classification |
Μηχανική Μάθηση |
el |
heal.classification |
Επεξεργασία Φωνής και Φυσικής Γλώσσας |
el |
heal.classification |
Machine Learning |
en |
heal.classification |
Speech and Language Processing |
en |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2024-01-29 |
|
heal.abstract |
In the recent years, a dominant strategy has arised in machine learning, i.e., scaling-up model capacity and training data, with impressive results. However, the development of techniques for resource-limited settings can have a great economic, environmental, and research impact, especially for digitally under-represented communities. In this thesis, which is split into two major parts, we draw motivation from insights in the fields of cognitive sciences and neurosciences to design efficient and effective machine learning algorithms for data representation and model adaptation. First, we propose a novel algorithm for dimensionality reduction via multi-dimensional scaling based on the global geometry of the input data. The proposed algorithm, Pattern Search MDS is based on derivative-free direct search, and is able to capture the geometry of complex “pseudo”-metric spaces. Reduction of the algorithm to the General Pattern Search algorithmic family provides theoretical convergence guarantees, and an optimized implementation is provided to the research community. The performance and convergence of Pattern Search MDS is demonstrated on diverse tasks, i.e., manifold geometry, semantic similarity, and speech emotion recognition. In the second part we shift our focus to the problem of Unsupervised Domain Adaptation of speech and language models. To address the inherent stability-plasticity dilemma in this problem we propose mixed self-supervision, a robust and effective fine-tuning strategy, where the task is learned using annotated out-of-domain data, while relevant in-domain knowledge from pretraining is maintained via self-supervision on unlabeled in-domain data. We evaluate mixed self-supervision for text sentiment analysis based on product reviews, and the adaptation of speech recognition systems to new domains for Modern Greek. Particular emphasis is placed on the sample-efficiency of the proposed fine-tuning strategy in our ablations, where we demonstrate that 500 in-domain reviews, or 3 hours of in-domain speech, are enough for successful adaptation. |
en |
heal.abstract |
Τα τελευταία χρόνια, μια κυρίαρχη στρατηγική έχει προκύψει στη μηχανική μάθηση, δηλαδή η κλιμάκωση της χωρητικότητας του μοντέλου και των δεδομένων εκπαίδευσης, με εντυπωσιακά αποτελέσματα. Ωστόσο, η ανάπτυξη τεχνικών για περιβάλλοντα με περιορισμένους πόρους μπορεί να έχει μεγάλο οικονομικό, περιβαλλοντικό και ερευνητικό αντίκτυπο, ειδικά για ψηφιακά υποεκπροσωπούμενες κοινότητες. Σε αυτή τη διατριβή, η οποία χωρίζεται σε δύο κύρια μέρη, αντλούμε κίνητρα από τους τομείς των γνωσιακών επιστημών και των νευροεπιστημών για να σχεδιάσουμε αποδοτικούς και αποτελεσματικούς αλγόριθμους μηχανικής μάθησης για αναπαράσταση δεδομένων και προσαρμογή μοντέλων. Πρώτον, προτείνουμε έναν νέο αλγόριθμο για τη μείωση διαστάσεων μέσω πολυδιάστατης κλιμάκωσης με βάση τη συνολική γεωμετρία των δεδομένων εισόδου. Ο προτεινόμενος αλγόριθμος, Pattern Search MDS βασίζεται σε άμεση αναζήτηση χωρίς παραγώγους και είναι σε θέση να συλλάβει τη γεωμετρία σύνθετων “ψευδομετρικών” χώρων. Η αναγωγή του αλγορίθμου στην οικογένεια αλγορίθμων General Pattern Search παρέχει θεωρητικές εγγυήσεις σύγκλισης, ενώ
παρέχεται μια βελτιστοποιημένη υλοποίηση στην ερευνητική κοινότητα. Η απόδοση και η σύγκλιση του Pattern Search MDS επιδεικνύεται σε διάφορες εργασίες, π.χ., γεωμετρία πολλαπλοτήτων, σημασιολογική ομοιότητα και αναγνώριση συναισθημάτων από φωνή. Στο δεύτερο μέρος στρέφουμε την εστίασή μας στο πρόβλημα της μη επιβλεπώμενης προσαρμογής μοντέλων λόγου και γλώσσας σε νέους τομείς. Για να αντιμετωπίσουμε το εγγενές δίλημμα σταθερότητας-πλαστικότητας σε αυτό το πρόβλημα, προτείνουμε μικτή αυτο-επίβλεψη, μια ισχυρή και αποτελεσματική στρατηγική προσαρμογής, όπου η εργασία μαθαίνεται χρησιμοποιώντας επισημειωμένα δεδομένα εκτός τομέα, ενώ σχετική γνώση εντός τομέα από την προεκπαίδευση διατηρείται μέσω αυτο-επίβλεψης σε δεδομένα
εντός τομέα χωρίς ετικέτες. Αξιολογούμε τη μικτή αυτο-επίβλεψη για την ανάλυση συναισθήματος από κείμενο με βάση κριτικές προϊόντων και την προσαρμογή συστημάτων αναγνώρισης ομιλίας σε νέους τομείς για τα Νέα Ελληνικά. Ιδιαίτερη έμφαση δίνεται στην αποτελεσματικότητα της προτεινόμενης στρατηγικής προσαρμογής για λίγα δείγματα, όπου δείχνουμε ότι 500 κριτικές ή 3 ώρες ήχου εντός τομέα είναι αρκετές για επιτυχημένη προσαρμογή. |
el |
heal.sponsor |
This work has been partially supported by the following European Commision and National projects: Babyrobot (EU Horizon 2020, grant number: 687831), Safety4All (RESEARCH — CREATE — INNOVATE, project code: T2EDK-04248), AI4EDU (Erasmus+, contract number: 101087451). The author has also worked for the following private entities during the writing of this dissertation: Behavioral Signals Technologies Inc., Amazon Inc. No confidential material under NDA has been used for the writing of this document. The author declares no known conflicts of interest. |
en |
heal.sponsor |
H εργασία έχει χρηματοδοτηθεί μερικώς από τα παρακάτω Ευρωπαϊκά και Εθνικά έργα: Babyrobot (EU Horizon 2020, αριθμός έργου: 687831), Safety4All (ΕΡΕΥΝΩ — ΔΗΜΙΟΥΡΓΩ — ΚΑΙΝΟΤΟΜΩ, κωδικός έργου: T2EDK-04248), AI4EDU (Erasmus+, αριθμός έργου: 101087451). Ο συγγραφέας έχει εργαστεί για τις παρακάτω εταιρείες κατά τη διάρκεια της συγγραφής: Behavioral Signals Technologies Inc., Amazon Inc. Δεν έχει χρησιμοποιηθεί υλικό που υπόκειται σε συμφωνία εμπιστευτικότητας για τη συγγραφή αυτής της εργασίας. Ο συγγραφέας δηλώνει ότι δεν υπάρχουν αντικρουόμενα συμφέροντα που σχετίζονται με οποιαδήποτε από της αναφερόμενες πηγές χρηματοδότησης. |
el |
heal.advisorName |
Αλέξανδρος, Ποταμιάνος |
el |
heal.advisorName |
Alexandros, Potamianos |
en |
heal.committeeMemberName |
Αλέξανδρος, Ποταμιάνος |
el |
heal.committeeMemberName |
Πέτρος, Μαραγκός |
el |
heal.committeeMemberName |
Κωσταντίνος, Τζαφέστας |
el |
heal.committeeMemberName |
Αθανάσιος, Κατσαμάνης |
el |
heal.committeeMemberName |
Γεράσιμος, Ποταμιάνος |
el |
heal.committeeMemberName |
Αθανάσιος, Ροντογιάννης |
el |
heal.committeeMemberName |
Δημήτριος, Φωτάκης |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
187 σ. |
el |
heal.fullTextAvailability |
false |
|