HEAL DSpace

Τεχνικές Μεταφοράς Μάθησης σε Βαθιά Νευρωνικά Δίκτυα για Ανάλυση Συναισθήματος και Σημασιολογική Μοντελοποίηση

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Χρονοπούλου, Αλεξάνδρα el
dc.contributor.author Chronopoulou, Alexandra en
dc.date.accessioned 2019-07-11T08:43:13Z
dc.date.available 2019-07-11T08:43:13Z
dc.date.issued 2019-07-11
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/49039
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.16579
dc.rights Default License
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Ανάλυση συναισθήματος el
dc.subject Μηχανική μάθηση el
dc.subject Μεταφορά μάθησης el
dc.subject Βαθιά νευρωνικά δίκτυα el
dc.subject Natural language processing en
dc.subject Sentiment analysis en
dc.subject Machine learning en
dc.subject Transfer learning en
dc.subject Deep neural networks en
dc.title Τεχνικές Μεταφοράς Μάθησης σε Βαθιά Νευρωνικά Δίκτυα για Ανάλυση Συναισθήματος και Σημασιολογική Μοντελοποίηση el
heal.type bachelorThesis
heal.secondaryTitle Transfer learning with deep neural networks for sentiment analysis and semantic modeling en
heal.classification Μηχανική μάθηση el
heal.classification Machine learning en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-03-20
heal.abstract Στα πλαίσια αυτής της διατριβής εξετάζουμε το ζήτημα της μη ικανοποιητικής απόδοσης σε προβλήματα ταξινόμησης λόγω της έλλειψης δεδομένων με ετικέτες. Για να επιτύχουμε σημαντικές βελτιώσεις στα συγκεκριμένα προβλήματα ταξινόμησης, αξιοποιούμε προεκπαιδευμένες αναπαραστάσεις και εξερευνούμε μεθόδους μεταφοράς μάθησης, τόσο στη μορφή προεκπαιδευμένων ταξινομητών όσο και προεκπαιδευμένων γλωσσικών μοντέλων. Έπειτα, παρουσιάζουμε μια πιο αποτελεσματική και εξειδικευμένη μορφή μεταφοράς μάθησης, η οποία περιέχει μια βοηθητική συνάρτηση κόστους για το γλωσσικό μοντέλο, ταυτόχρονα με την συνάρτηση κόστους του ταξινομητή. Το ζήτημα αυτό είναι καίριο στην βαθιά μάθηση (deep learning) και έχει ως ένα βαθμό αντιμετωπιστεί πρόσφατα στο πεδίο της Επεξεργασίας Φυσικής Γλώσσας, καθώς τα βαθιά νευρωνικά δίκτυα συνήθως απαιτούν έναν εκτεταμένο αριθμό παραδειγμάτων κατά τη διάρκεια της εκπαίδευσης. Ωστόσο, το να αποκτήσει κανείς πληθώρα δεδομένων για να εκπαιδεύσει ένα τέτοιο νευρωνικό δίκτυο είναι συχνά δαπανηρό και δύσκολο να επιτευχθεί. Αρχικά παρουσιάζουμε μια μέθοδο, κατά την οποία χρησιμοποιούμε ένα προεκπαιδευμένο μοντέλο σε ανάλυση συναισθήματος για να μειώσουμε το σφάλμα πάνω στο σύνολο δεδομένων σε ένα σημασιολογικά παρεμφερές πρόβλημα ταξινόμησης. Η μεταφορά μάθησης από προεκπαιδευμένους ταξινομητές αξιοποιεί την αναπαράσταση που έχει μάθει ένα μοντέλο υπό συνθήκες επιβλεπόμενης μάθησης, σε ένα συγκεκριμένο πρόβλημα με πληθώρα δεδομένων για εκπαίδευση, για να επιτύχει ανταγωνιστικά αποτελέσματα σε ένα παρόμοιο πρόβλημα, όπου μόνο λίγα δεδομένα είναι διαθέσιμα. Έπειτα χρησιμοποιούμε προεκπαιδευμένες αναπαραστάσεις λέξεων από γλωσσικά μοντέλα, για να αντιμετωπίσουμε ένα πρόβλημα κατηγοριοποίησης κειμένου στα βασικά συναισθήματα. Ένας αλγόριθμος μάθησης μπορεί να χρησιμοποιήσει πληροφορίες που απέκτησε επιλύοντας ένα πρόβλημα μη επιβλεπόμενης μάθησης για να έχει καλύτερη απόδοσης στο στάδιο επιβλεπόμενης μάθησης. Συγκεκριμένα, οι προεκπαιδευμένες αναπαραστάσεις λέξεων που μας προσφέρουν τα γλωσσικά μοντέλα είναι χρήσιμες, διότι κωδικοποιούν πληροφορίες σχετικές με το περιεχόμενο και μοντελοποιούν τη σύνταξη αλλά και τη σημασιολογία. Προτείνουμε μια μέθοδο μεταφοράς μάθησης που αποτελείται από τρία βήματα: αρχικά εκπαίδευση ενός γλωσσικού μοντέλου, έπειτα προσαρμογή του μοντέλου στο πρόβλημα (task) που αντιμετωπίζουμε και τέλος μεταφορά του μοντέλου αυτού σε έναν ταξινομητή για να αξιοποιήσουμε αυτές τις αναπαραστάσεις. Αναφέρουμε ότι η μέθοδος μας επιτυγχάνει 10% βελτίωση σχετικά με το βασικό μοντέλο του WASSA 2018. Επιτυγχάνουμε επίσης F1-score ίσο με 70.3%, γεγονός που μας τοποθετεί στην πρώτη τριάδα της κατάταξης του σχετικού διαγωνισμού. Τελικά παρουσιάζουμε ένα εννοιολογικά απλό και αποτελεσματικό μοντέλο μεταφοράς μάθησης, το οποίο αντιμετωπίζει το πρόβλημα του catastrophic forgetting. Συγκεκριμένα, συνδυάζουμε την συνάρτηση βελτιστοποίησης για ένα συγκεκριμένο πρόβλημα με τη βοηθητική συνάρτηση βελτιστοποίησης του γλωσσικού μοντέλου, η οποία προσαρμόζεται κατά τη διαδικασία εκπαίδευσης. Αυτό διαφυλάσσει τη μοντελοποίηση της γλώσσας που έχει μάθει το γλωσσικό μοντέλο, ενώ επιτρέπει ταυτόχρονα αρκετές αλλαγές για να επιλυθεί το εκάστοτε πρόβλημα ταξινόμησης. Η εισαγωγή της βοηθητικής συνάρτησης του γλωσσικού μοντέλου μας επιτρέπει να ελέγχουμε απολύτως τη συνεισφορά του προεκπαιδευμένου μέρους του μοντέλου και να διασφαλίσουμε ότι η γνώση που έχει κωδικοποιήσει θα διατηρηθεί. Η προσέγγισή μας παρουσιάζει εύρωστα αποτελέσματα σε 5 διαφορετικά προβλήματα ταξινόμησης, όπου αναφέρουμε σημαντικές βελτιώσεις σε σχέση με τα βασικά μοντέλα (baselines). Η βελτίωση της απόδοσης είναι πιο φανερή όταν το σετ δεδομένων που έχει χρησιμοποιηθεί στην προεκπαίδευση ανήκει σε διαφορετικό τομέα (domain) απ' ότι το σετ δεδομένων που έχει χρησιμοποιηθεί στην προσαρμογή (fine-tuning). Χαρακτηριστικό παράδειγμα αποτελεί το Sarcasm corpus σετ δεδομένων, μεταξύ άλλων, όπου επιτυγχάνουμε F1-σκορ 75%, μόλις 1% κάτω από το state of the art. Αξιολογούμε το μοντέλο μας σε πληθώρα διαφορετικών προβλημάτων και δείχνουμε ότι η προσέγγισή μας μπορεί να επιτύχει εντυπωσιακά αποτελέσματα ακόμα και με ελάχιστα δεδομένα εκπαίδευσης. el
heal.abstract In this work , we address the issue of poor performance in classification tasks due to scarcity of labeled data. To yield substantial improvements in classification tasks, we leverage pretrained representations and explore transfer learning methods, both in the form of pretrained classifiers and pretrained lan- guage models. We then present a more effective and refined transfer learning approach, where we introduce an auxiliary language model loss to the transferred model. The addressed issue is crucial in deep learning and has only recently been tackled in the Natural Language Processing field, as deep neural networks typically require an extended number of training annotated examples, yet large quan- tities of data are often expensive and difficult to collect. First, we propose a method for successfully utilizing a pretrained sentiment analysis classification model to reduce the test error rate on an emotion recognition classification task. Transfer learning from pretrained classifiers exploits the representation that a model has learned for one supervised setting with plenty of data to obtain competitive results on a related task where only a small dataset is available. We aim to leverage the more generic representation of the pretrained classifier to tackle the target task, building upon the intuition that knowledge of positive, negative or neutral sentiment should be beneficial for a classification in the 6 basic emotions, namely anger, joy, fear, disgust, suprise and sadness. Next, we utilize pretrained representations from language models to address an emotion recogni- tion classification task. A learning algorithm can use information learned in the unsupervised phase to perform better in the supervised learning stage. Specifically, pretrained word representations captured by language models are useful as they encode contextual information and model syntax and seman- tics. We propose a three-step transfer learning method that includes pretraining a language model, fine-tuning it on the target task and transferring the model to a classifier to leverage these representa- tions. We show an improvement of 10% on the WASSA 2018 emotion recognition dataset baseline. We achieve a -score of 70.3%, ranking in the top-3 positions of the respective competition. 1 Finally, we present a conceptually simple and effective transfer learning approach that addresses the problem of catastrophic forgetting. Specifically, we combine the task-specific optimization func- tional with an auxiliary language model objective, which is adjusted during the training process. This preserves language regularities captured by language models, while enabling sufficient adaptation for solving the target task. The introduction of the auxiliary language model loss allows us to explicitly control the weighting of the pretrained part of the model and ensure that the distilled knowledge it en- codes is preserved. Our approach shows robust results on 5 different classification datasets, where we report significant boosts over the baselines. The performance improvement is more pronounced when there is a mismatch between the pretraining and target task domains, which is the case in the Sarcasm Corpus dataset amongst others, where we achieve a -score of 75%, 1% below state-of-the-art. We 1 evaluate our model on a variety of classification tasks and demonstrate that our approach is able to yield impressive results even on a handful of training examples. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Ανδρουτσόπουλος, Ίων el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 87 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής