Unsupervised Domain Adaptation for Natural Language Processing

Karouzos, Constantinos F.; Καρούζος, Κωνσταντίνος Φ.

dc.contributor.author	Karouzos, Constantinos F.	en
dc.contributor.author	Καρούζος, Κωνσταντίνος Φ.	el
dc.date.accessioned	2020-12-17T08:32:43Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52581
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.20279
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	Προαρμογή πεδίου	el
dc.subject	Ανάλυση συναισθήματος	el
dc.subject	Γλωσσικά μοντέλα	el
dc.subject	Μη επιβλεπόμενη μάθηση	el
dc.subject	Domain adaptation	en
dc.subject	Language modeling	en
dc.subject	Sentiment analysis	en
dc.subject	Unsupervised learning	en
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Natural language processing	en
dc.title	Unsupervised Domain Adaptation for Natural Language Processing	en
dc.contributor.department	Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.type	bachelorThesis
heal.classification	Machine Learning	en
heal.classification	Natural Language Processing	en
heal.classification	Μηχανική Μάθηση	el
heal.classification	Επεξεργασία Φυσικής Γλώσσας	el
heal.dateAvailable	2021-12-16T22:00:00Z
heal.language	en
heal.access	embargo
heal.recordProvider	ntua	el
heal.publicationDate	2020-11-02
heal.abstract	The purpose of this diploma dissertation is to study unsupervised domain adaptation for natural language processing applications and specifically for the problem of sentiment analysis. In the domain adaptation problem there is data coming from two distributions, one source domain and one target domain, while labels are only available for the source domain. The aim is learning, by using data from both domains, a model with good generalization on examples belonging to the target domain. In this dissertation we first study the theoretical background of machine learning, at the level of architectural models, training algorithms and learning techniques. Then we cover the background of developments in the subject of natural language processing, making a reference to word vectors, language models and finally to pretrained language models and BERT (Bidirectional Encoder Representations from Transformers). To solve the domain adaptation problem, the literature has proposed a variety of approaches. These are divided into three main categories, those that seek to first learn the common features (pivots) between domains, those that develop models following domain adversarial training and finally the category of data-based approaches which usually seek either to learn pseudo-label for the target domain or the use of pretrained language models. In the present work we propose a new approach to achieve domain adaptation, based on BERT. It consists of two steps. The first step is the continuation of pretraining through masked language modeling on the data derived from the target domain. On a final fine-tuning step we learn the task on source labeled data, while we keep an auxiliary masked language modeling objective on unlabeled target data. The experimental part of this work includes a set of comparative experiments between the proposed method, and a set of previous methods and baselines. The experiments are conducted on the multi domain (books, movies, electronics, kitchenware) sentiment analysis Amazon reviews dataset. The results of the above experiments show a significant improvement in the accuracy of the proposed method compared to the previous state-of-the-art. The work also includes an analysis of the results and visualization of the features that are extracted and used for classification in each case. Finally, we discuss the limitations of the dominant approach of domain adversarial training, based on the the relevant learning theory from different domains and our experimental observations.	en
heal.abstract	Σκοπός της παρούσας εργασίας είναι η μελέτη του προβλήματος της μη επιβλεπόμενης προσαρμογής πεδίου (unsupervised domain adaptation) για εφαρμογές επεξεργασίας φυσικής γλώσσας και συγκεκριμένα για το πρόβλημα της ανάλυσης συναισθήματος (sentiment analysis). Στο πρόβλημα προσαρμογής πεδίου υπάρχουν δεδομένα που έρχονται από δύο κατανομές, μία κατανομή πηγή (source domain) και μία κατανομή στόχο (target domain), ενώ επισημειώσεις είναι διαθέσιμες μόνο για την κατανομή πηγή. Το πρόβλημα έγκειται στην εκμάθηση, με αξιοποίηση των δεδομένων από τα δύο πεδία, ενός μοντέλου μηχανικής μάθησης με καλή γενίκευση σε δεδομένα που ανήκουν στην κατανομή στόχο. Στην παρούσα διπλωματική εργασία μελετάμε αρχικά το υπόβαθρο μηχανικής μάθησης, σε επίπεδο αρχιτεκτονικών μοντέλων, αλγορίθμων εκπαίδευσης και τεχνικών μάθησης. Στην συνέχεια καλύπτουμε το υπόβαθρο εξελίξεων στο αντικείμενο της επεξεργασίας φυσικής γλώσσας, μέσω μίας αναφοράς σε διανύσματα λέξεων, σε γλωσσικά μοντέλα και τέλος σε προεκπαιδευμένα γλωσσικά μοντέλα και το σύστημα αναπαραστάσεων λέξεων BERT. Για την επίλυση του προβλήματος προσαρμογής πεδίου έχουν προταθεί μια ποικιλία προσεγγίσεων επίλυσης. Αυτές χωρίζονται σε τρεις κύριες κατηγορίες, όσες επιδιώκουν να μάθουν πρώτα τα κοινά χαρακτηριστικά (pivots) μεταξύ των πεδίων, εκείνες που αναπτύσουν μοντέλα ακολουθώντας την λογική της αντιπαραθετικής μηχανικής μάθησης μεταξύ των πεδίων (domain adversarial training) και τέλος στην κατηγορία προσεγγίσεων με βάση τα δεδομένα που επιδιώκουν συνήθως είτε την εκμάθηση ετικετών (pseudo-labels) των παραδειγμάτων της κατανομής στόχου είτε την αξιοποίηση προ-εκπαιδευμένων γλωσσικών μοντέλων. Στην παρούσα εργασία προτείνουμε μια νέα προσέγγιση για την επίλυση του προβλήματος προσαρμογής πεδίου, βασισμένη στο προεκπαιδευμένο σύστημα αναπαραστάσεων λέξεων BERT. Αυτή αποτελείται από δύο βήματα. Το πρώτο βήμα αφορά την συνέχεια της προεκπαίδευσης μέσω της γλωσσικής μοντελοποίησης των δεδομένων που προέρχονται από την κατανομή στόχο. Το δεύτερο βήμα αποτελείται από την μάθηση της ταξινόμησης από τα δεδομένα από την κατανομή πηγή ενώ συνεχίζεται η γλωσσική μοντελοποίηση στα δεδομένα από την κατανομή στόχο. Το πειραματικό μέρος αυτής της εργασίας περιλαμβάνει ένα σύνολο συγκριτικών πειραμάτων μεταξύ της προτεινόμενης μεθόδου, και ενός συνόλου προηγούμενων μεθόδων ή μεθόδων βάσης. Τα πειράματα αφορούν το multi-domain Amazon reviews dataset που περιέχει κριτικές από πολλές θεματικές ενότητες (βιβλία, ταινίες, ηλεκτρονικά, είδη κουζίνας). Τα αποτελέσματα των παραπάνω πειραμάτων καταδεικνύουν σημαντική βελτίωση των ποσοστών επιτυχίας της προτεινόμενης μεθόδου σε σχέση με τις συγκρινόμενες. Η εργασία περιλαμβάνει ακόμα ανάλυση των αποτελεσμάτων και οπτικοποίηση των χαρακτηριστικών που εξάγονται και χρησιμοποιούνται για ταξινόμηση σε κάθε περίπτωση. Τέλος πραγματοποιούμε μια ανάλυση για τους λόγους αποτυχίας της κυρίαρχης βιβλιογραφικά επιλογής του domain adversarial training βασισμένοι στην σχετική θεωρία μάθησης από διαφορετικά πεδία καθώς και τα πειραματικά μας αποτελέσματα.	el
heal.advisorName	Ποταμιάνος, Αλέξανδρος	el
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Παπαγεωργίου, Χάρης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	96 p.	en
heal.fullTextAvailability	false