HEAL DSpace

Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Χλαπάνης, Οδυσσέας- Σπυρίδων el
dc.contributor.author Chlapanis, Odysseas-Spyridon en
dc.date.accessioned 2023-01-26T09:35:34Z
dc.date.available 2023-01-26T09:35:34Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56928
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24626
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Multimodal Learning en
dc.subject BERT en
dc.subject Deep Learning en
dc.subject Multimodal Sentiment Analysis en
dc.subject Adapters en
dc.subject Προσαρμογείς el
dc.subject Πολυτροπική Μάθηση el
dc.subject Βαθιά Μάθηση el
dc.subject BERT el
dc.subject Πολυτροπική Ανάλυση Διάθεσης el
dc.title Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis en
dc.title Προσαρμοσμένο Πολυτροπικό BERT με Επίπεδα Συγχώνευσης για Ανάλυση Διάθεσης el
heal.type bachelorThesis
heal.classification Deep Learning en
heal.classification Βαθιά Μάθηση el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-11-02
heal.abstract Over the past few years, the abundance of multimedia data and progress in core machine learning algorithms has set the scene for multimodal machine learning as one of the frontiers of applied AI research. Τhe usage of social networks has exploded leading to massive amounts of data available. In addition, the recent success of the so-called Pretrained Language Models (PLMs) has encouraged the creation of many fascinating new applications. However, training these deep networks in multiple stages, as this trend suggests, comes at the cost of increased model parameters. In this work, we propose Adapted Multimodal BERT (AMB), a BERT-based architecture for multimodal tasks that uses a combination of adapter modules and intermediate fusion layers. Specifically, the task that is going to be tackled is sentiment analysis on videos with text, visual and acoustic data. BERT is a deep pretrained neural network architecture that was originally used for processing language information and consists of multiple neural network layers, which are called transformer layers. The adapter is a neural module that is interleaved in between the layers of BERT in order to adjust the pretrained language model for the task at hand. This allows for transfer learning to the new task, but in contrast with fine-tuning which is the prevalent method, adapters are parameter-efficient. The fusion layers are composed of a simpler feedforward neural network aiming to perform task-specific, layer-wise fusion of audio-visual information with textual BERT representations. During the adaptation process the pretrained language model parameters remain frozen, allowing for fast, parameter-efficient training. Extensive ablation studies are performed which reveal that this approach leads to an efficient model. Adapters prove empirically to help with performance although they train much less parameters, because they avoid some of the issues with standard approaches of transfer learning. They can outperform these costly approaches which consist of the aforementioned fine-tuning that refines the weights of the model to adapt it to the new task. Also, the proposed model shows signs of robustness to input noise, which is fundamental for real-life applications. The experiments on sentiment analysis with CMU-MOSEI reveal that AMB outperforms the current state-of-the-art across metrics, with 3.4% relative reduction in the resulting error and 2.1% relative improvement in 7-class classification accuracy. en
heal.abstract Τα τελευταία χρόνια η πληθώρα πολυμέσων και οι εξελίξεις στον τομέα της μηχανικής μάθησης έχει οδηγήσει στην εξάπλωση της πολυτροπικής μάθησης ως ένα από τα σημαντικότερα πεδία ερευνών εφαρμοσμένης τεχνητής νοημοσύνης. Η εκτεταμένη χρήση των μέσων κοινωνικής δικτύωσης έχει επιτρέψει την συλλογή τεράστιων συνόλων δεδομένων. Επιπρόσθετα, η πρόσφατη επιτυχία των Προεκπαιδευμένων Γλωσσικών Μοντέλων (ΠΓΜ) έχει οδηγήσει στην δημιουργία εκπληκτικών νέων εφαρμογών. Παρ' όλα αυτά η προ-εκπαίδευση νευρωνικών δικτύων μεγάλης κλίμακας σε πολλά στάδια που απαιτείται επιβάλλει ένα δυσθεώρητο κόστος παραμέτρων. Στην παρούσα εργασία, προτείνεται το Προσαρμοσμένο Πολυτροπικό BERT (AMB), ένα μοντέλο βασισμένο στο γλωσσικό μοντέλο BERT το οποίο επεκτείνεται για πολυτροπική ανάλυση διάθεσης με ένα συνδυασμό από αντάπτορες (ή αλλιώς προσαρμογείς) και ενδιάμεσα επίπεδα συγχώνευσης. Το BERT είναι ένα προεκπαιδευμένο βαθύ νευρωνικό δίκτυο το οποίο είχε αρχικά σχεδιαστεί για την επεξεργασία γλωσσικής πληροφορίας και αποτελείται από πολλά επίπεδα του μοντέλου transformer. Ο αντάπτορας είναι ένα τμήμα της αρχιτεκτονικής το οποίο τοποθετείται ανάμεσα στα επίπεδα του BERT με σκοπό να προσαρμόσει το προεκπαιδευμένο γλωσσικό μοντέλο για το οποιοδήποτε πρόβλημα. Αυτή η διαδικασία ονομάζεται μεταφορά μάθησης, αλλά σε αντίθεση με την κλασική μέθοδο που ονομάζεται fine-tuning, οι αντάπτορες είναι πιο οικονομικοί ως προς τις παραμέτρους. Τα επίπεδα συγχώνευσης αποτελούνται από μία πιο απλή αρχιτεκτονική γνωστή ως feedforward network. Στοχεύουν στην συγχώνευση της οπτικοακουστικής πληροφορίας με τις αναπαραστάσεις κειμένου του BERT. Κατά τη διαδικασία της προσαρμογής, τα βάρη του προεκπαιδευμένου μοντέλου παραμένουν ``παγωμένα'', επιτρέποντας γρήγορη και οικονομική εκπαίδευση. Με την διεξαγωγή εκτεταμένης αφαιρετικής μελέτης αποδεικνύεται πειραματικά ότι οι αντάπτορες βοηθούν την επίδοση αν και χρησιμοποιούν πολύ λιγότερες παραμέτρους, επειδή αποφεύγουν κάποια από τα προβλήματων των κλασικών τεχνικών μεταφοράς μάθησης. Επίσης, η προτεινόμενη λύση δείχνει σημάδια ευρωστίας σε θόρυβο εισόδου, το οποίο είναι θεμελιώδες για αληθινές εφαρμογές. Τα πειράματα στο πρόβλημα της ανάλυσης διάθεσης με το CMU-MOSEI αποκαλύπτουν ότι το AMB ξεπερνά σε όλες τις μετρικές το καλύτερο μοντέλο με 3.4% σχετική μείωση στο σφάλμα και 2.1% σχετική βελτίωση στην ακρίβεια 7 κλάσεων. el
heal.advisorName Ποταμιανός, Αλέξανδρος el
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 83 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα