HEAL DSpace

Unsupervised Domain Adaptation for Natural Language Processing

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Karouzos, Constantinos F. en
dc.contributor.author Καρούζος, Κωνσταντίνος Φ. el
dc.date.accessioned 2020-12-17T08:32:43Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52581
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.20279
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Προαρμογή πεδίου el
dc.subject Ανάλυση συναισθήματος el
dc.subject Γλωσσικά μοντέλα el
dc.subject Μη επιβλεπόμενη μάθηση el
dc.subject Domain adaptation en
dc.subject Language modeling en
dc.subject Sentiment analysis en
dc.subject Unsupervised learning en
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Natural language processing en
dc.title Unsupervised Domain Adaptation for Natural Language Processing en
dc.contributor.department Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.type bachelorThesis
heal.classification Machine Learning en
heal.classification Natural Language Processing en
heal.classification Μηχανική Μάθηση el
heal.classification Επεξεργασία Φυσικής Γλώσσας el
heal.dateAvailable 2021-12-16T22:00:00Z
heal.language en
heal.access embargo
heal.recordProvider ntua el
heal.publicationDate 2020-11-02
heal.abstract The purpose of this diploma dissertation is to study unsupervised domain adaptation for natural language processing applications and specifically for the problem of sentiment analysis. In the domain adaptation problem there is data coming from two distributions, one source domain and one target domain, while labels are only available for the source domain. The aim is learning, by using data from both domains, a model with good generalization on examples belonging to the target domain. In this dissertation we first study the theoretical background of machine learning, at the level of architectural models, training algorithms and learning techniques. Then we cover the background of developments in the subject of natural language processing, making a reference to word vectors, language models and finally to pretrained language models and BERT (Bidirectional Encoder Representations from Transformers). To solve the domain adaptation problem, the literature has proposed a variety of approaches. These are divided into three main categories, those that seek to first learn the common features (pivots) between domains, those that develop models following domain adversarial training and finally the category of data-based approaches which usually seek either to learn pseudo-label for the target domain or the use of pretrained language models. In the present work we propose a new approach to achieve domain adaptation, based on BERT. It consists of two steps. The first step is the continuation of pretraining through masked language modeling on the data derived from the target domain. On a final fine-tuning step we learn the task on source labeled data, while we keep an auxiliary masked language modeling objective on unlabeled target data. The experimental part of this work includes a set of comparative experiments between the proposed method, and a set of previous methods and baselines. The experiments are conducted on the multi domain (books, movies, electronics, kitchenware) sentiment analysis Amazon reviews dataset. The results of the above experiments show a significant improvement in the accuracy of the proposed method compared to the previous state-of-the-art. The work also includes an analysis of the results and visualization of the features that are extracted and used for classification in each case. Finally, we discuss the limitations of the dominant approach of domain adversarial training, based on the the relevant learning theory from different domains and our experimental observations. en
heal.abstract Σκοπός της παρούσας εργασίας είναι η μελέτη του προβλήματος της μη επιβλεπόμενης προσαρμογής πεδίου (unsupervised domain adaptation) για εφαρμογές επεξεργασίας φυσικής γλώσσας και συγκεκριμένα για το πρόβλημα της ανάλυσης συναισθήματος (sentiment analysis). Στο πρόβλημα προσαρμογής πεδίου υπάρχουν δεδομένα που έρχονται από δύο κατανομές, μία κατανομή πηγή (source domain) και μία κατανομή στόχο (target domain), ενώ επισημειώσεις είναι διαθέσιμες μόνο για την κατανομή πηγή. Το πρόβλημα έγκειται στην εκμάθηση, με αξιοποίηση των δεδομένων από τα δύο πεδία, ενός μοντέλου μηχανικής μάθησης με καλή γενίκευση σε δεδομένα που ανήκουν στην κατανομή στόχο. Στην παρούσα διπλωματική εργασία μελετάμε αρχικά το υπόβαθρο μηχανικής μάθησης, σε επίπεδο αρχιτεκτονικών μοντέλων, αλγορίθμων εκπαίδευσης και τεχνικών μάθησης. Στην συνέχεια καλύπτουμε το υπόβαθρο εξελίξεων στο αντικείμενο της επεξεργασίας φυσικής γλώσσας, μέσω μίας αναφοράς σε διανύσματα λέξεων, σε γλωσσικά μοντέλα και τέλος σε προεκπαιδευμένα γλωσσικά μοντέλα και το σύστημα αναπαραστάσεων λέξεων BERT. Για την επίλυση του προβλήματος προσαρμογής πεδίου έχουν προταθεί μια ποικιλία προσεγγίσεων επίλυσης. Αυτές χωρίζονται σε τρεις κύριες κατηγορίες, όσες επιδιώκουν να μάθουν πρώτα τα κοινά χαρακτηριστικά (pivots) μεταξύ των πεδίων, εκείνες που αναπτύσουν μοντέλα ακολουθώντας την λογική της αντιπαραθετικής μηχανικής μάθησης μεταξύ των πεδίων (domain adversarial training) και τέλος στην κατηγορία προσεγγίσεων με βάση τα δεδομένα που επιδιώκουν συνήθως είτε την εκμάθηση ετικετών (pseudo-labels) των παραδειγμάτων της κατανομής στόχου είτε την αξιοποίηση προ-εκπαιδευμένων γλωσσικών μοντέλων. Στην παρούσα εργασία προτείνουμε μια νέα προσέγγιση για την επίλυση του προβλήματος προσαρμογής πεδίου, βασισμένη στο προεκπαιδευμένο σύστημα αναπαραστάσεων λέξεων BERT. Αυτή αποτελείται από δύο βήματα. Το πρώτο βήμα αφορά την συνέχεια της προεκπαίδευσης μέσω της γλωσσικής μοντελοποίησης των δεδομένων που προέρχονται από την κατανομή στόχο. Το δεύτερο βήμα αποτελείται από την μάθηση της ταξινόμησης από τα δεδομένα από την κατανομή πηγή ενώ συνεχίζεται η γλωσσική μοντελοποίηση στα δεδομένα από την κατανομή στόχο. Το πειραματικό μέρος αυτής της εργασίας περιλαμβάνει ένα σύνολο συγκριτικών πειραμάτων μεταξύ της προτεινόμενης μεθόδου, και ενός συνόλου προηγούμενων μεθόδων ή μεθόδων βάσης. Τα πειράματα αφορούν το multi-domain Amazon reviews dataset που περιέχει κριτικές από πολλές θεματικές ενότητες (βιβλία, ταινίες, ηλεκτρονικά, είδη κουζίνας). Τα αποτελέσματα των παραπάνω πειραμάτων καταδεικνύουν σημαντική βελτίωση των ποσοστών επιτυχίας της προτεινόμενης μεθόδου σε σχέση με τις συγκρινόμενες. Η εργασία περιλαμβάνει ακόμα ανάλυση των αποτελεσμάτων και οπτικοποίηση των χαρακτηριστικών που εξάγονται και χρησιμοποιούνται για ταξινόμηση σε κάθε περίπτωση. Τέλος πραγματοποιούμε μια ανάλυση για τους λόγους αποτυχίας της κυρίαρχης βιβλιογραφικά επιλογής του domain adversarial training βασισμένοι στην σχετική θεωρία μάθησης από διαφορετικά πεδία καθώς και τα πειραματικά μας αποτελέσματα. el
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Παπαγεωργίου, Χάρης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 96 p. en
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα