HEAL DSpace

Έλεγχος της ευρωστίας πολυτροπικών μετασχηματιστών μέσω διαταραχών εικόνας και κειμένου

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σαλάπας, Κωνσταντίνος el
dc.contributor.author Salapas, Konstantinos en
dc.date.accessioned 2024-07-11T06:55:16Z
dc.date.available 2024-07-11T06:55:16Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59852
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.27548
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Μετασχηματιστές el
dc.subject Οπτικά ερωτήματα-απαντήσεις el
dc.subject Διαταραχές κειμένου-εικόνας el
dc.subject Ανάκτηση εικόνας-κειμένου el
dc.subject Ερωτήματα-απαντήσεις σε κείμενο el
dc.subject Transformers en
dc.subject Image and text perturbations en
dc.subject Image-text retrieval en
dc.subject Visual question answering en
dc.subject Document question answering en
dc.title Έλεγχος της ευρωστίας πολυτροπικών μετασχηματιστών μέσω διαταραχών εικόνας και κειμένου el
dc.title Testing the robustness of multimodal transformers through image and text perturbations en
heal.type masterThesis
heal.classification Πληροφορική el
heal.classification Informatics en
heal.language el
heal.language en
heal.access campus
heal.recordProvider ntua el
heal.publicationDate 2024-03-26
heal.abstract Τα πολυτροπικά μοντέλα έχουν δείξει αξιοσημείωτη απόδοση τα τελευταία χρόνια, ειδικά μοντέλα τα οποία αξιοποιούν δεδομένα σε μορφή εικόνας και κειμένου. Ωστόσο, υπάρχει περιορισμένα έρευνα που εξετάζει την ευρωστία σε σύγκριση με ανάλογα έρευνα πάνω στα μονοτροπικά μοντέλα, τα οποία είναι μοντέλα με ξεχωριστή μορφή αισθητήριας εισόδου, όπως για παράδειγμα μοντέλα εκπαιδευμένα για ταξινόμηση εικόνας και κειμένου. Συγκεκριμένα, η ευρωστία μοντέλων που αξιοποιούν κείμενο ως είσοδο έχει ερευνηθεί διεξοδικά και έχουν αναπ- τυχθεί πολλά εργαλεία που ειδικεύονται σε ανταγωνιστικές επιθέσεις πάνω σε δεδομένα κειμένου. Η ευρωστία μοντέλων που αξιοποιούν εικόνες ως είσοδο έχει κυρίως αξιολογηθεί με την εισαγωγή θορύβου στις εικόνες, αλλά δεν απολαμβάνει τα προνόμια μίας μεγάλης ποικιλίας από εργαλεία όπως τα δεδομένα κειμένου. Ως αποτέλεσμα, υπάρχει μικρός αριθμός από εργαλεία που μπορούν να αξιολογήσουν μοντέλα που συνδυάζουν τις δύο μορφές εισόδου. Οι μετασχηματιστές είναι νευρωνικά δίκτυα που η δημοτικότητά τους έχει αυξηθεί ραγδαία τα τελευταία χρόνια, και αποδίδουν καλύτερα από άλλες αρχιτεκτονικές όπως τα αναδρομικά νευρωνικά δίκτυα στην περιοχή της επεξεργασίας φυσικής γλώσσας. Επίσης υπάρχουν άλλες μορφές μετασχηματιστών όπως οι μετασχηματιστές οράσεως που έχουν αναπτυχθεί να αποδίδουν καλά σε εφαρμογές αναγνώρισης εικόνων όταν εκπαιδεύονται σε μεγάλα σύνολα εικόνων. Ωστόσο, υπάρχει περιορισμένη καταγεγραμμένη πληροφορία πάνω σε μετασχηματιστές που αξιοποιούν εξίσου δεδομένα σε μορφή εικόνας και κειμένου. Σκοπός αυτής της διατριβής είναι η αξιολόγηση της ευρωστίας των πολυτροπικών αξιοποιώντας προεκπαιδευμέ- νους μετασχηματιστές πάνω σε δεδομένα κειμένου και εικόνων. Εξετάζουμε την απόδοση μετασχηματιστών που χρησιμοποιούνται για ανάκτηση εικόνας-κειμένου, εισάγοντας θόρυβο στα δεδομένα εικόνας και κειμένου και καταγράφοντας πώς επηρεάζει τις μετρικές ακριβείας του μοντέλου. Επίσης χρησιμοποιούμε διαφορετικά σύνολα δεδομένων και για παρατηρήσουμε την απόδοση των μοντέλων κάτω από διαφορετικές περιπτώσεις εισό- δου. Παρομοίως, εξετάζουμε την απόδοση των μετασχηματιστών που χρησιμοποιούνται για οπτικά προβλήματα ερωτήσεων-απαντήσεων, εισάγοντας θόρυβο στις εικόνες και παρατηρώντας πόσο ακριβείς είναι οι απαντήσεις στο σύνολο των ερωτήσεων. Παρατηρούμε ότι διαφορετικοί τύποι εικόνων (ρεαλιστικές εικόνες, σχέδια) για ερωτήσεις-απαντήσεις δίνουν δραστικά διαφορετικά αποτελέσματα. Επιπλέον, προτείνουμε και εκπαιδεύουμε ένα νέο μοντέλο βασισμένο σε προεκπαιδευμένο μετασχηματιστή για προβλήματα ερωτήσεων-απαντήσεων σε έγγραφα, που είναι από τους λιγότερα μελετημένους τύπους μοντέλων, και καταγράφουμε την καινούρια του απόδοση και πώς η εισαγωγή θορύβου μπορεί να αλλάξει τα αποτελέσματα. el
heal.abstract Multimodal models have shown remarkable performance the past few years, especially models that utilize text and image data. However, there has been limited research on their robustness compared to unimodal models, which are models with a singular form of sensory input such as models trained for image and text classification. The robustness of models that utilize text input specifically has been thoroughly researched and multiple tools have been developed to perform adversarial attacks on text data. The robustness of models that utilize image input has been mainly evaluated by inserting noise at image data, but it does not benefit from a large number of evaluation tools compared to text data. Transformers are neural networks that have gradually increased in popularity the latest years, outperforming other architectures such as Recurrent Neural Networks at the area of natural language processing. There are also different forms of transformers such as Vision Transformer that been developed to perform better at tasks such as image recognition when trained at large image datasets. However, there is limited documentation on transformers that utilize both image and text input data. The purpose of this thesis is to evaluate the robustness of multimodal models by utilizing pre-trained trans- formers with image and text input data. We test the performance of transformers that are used for image-text retrieval by inserting noise at the image and text data and recording how it does affect the accuracy met- rics of the model. We also use different datasets to observe the performance of the models under different circumstances of input. Similarly, we test the performance of transformers that are used for visual question answering by inserting noise to the images and observing how accurate the answers to a list of questions are. We observe that different stylεs of images (realistic images, drawings) for visual question answering give drastically different results. Furthermore, we propose and train a new model based on a pre-trained transformer for document question answering, which is one of the least documented model types, and record its new performance and how inserted noise can change the results. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών.Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα