Έλεγχος της ευρωστίας πολυτροπικών μετασχηματιστών μέσω διαταραχών εικόνας και κειμένου

Σαλάπας, Κωνσταντίνος; Salapas, Konstantinos

dc.contributor.author	Σαλάπας, Κωνσταντίνος	el
dc.contributor.author	Salapas, Konstantinos	en
dc.date.accessioned	2024-07-11T06:55:16Z
dc.date.available	2024-07-11T06:55:16Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/59852
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27548
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Μετασχηματιστές	el
dc.subject	Οπτικά ερωτήματα-απαντήσεις	el
dc.subject	Διαταραχές κειμένου-εικόνας	el
dc.subject	Ανάκτηση εικόνας-κειμένου	el
dc.subject	Ερωτήματα-απαντήσεις σε κείμενο	el
dc.subject	Transformers	en
dc.subject	Image and text perturbations	en
dc.subject	Image-text retrieval	en
dc.subject	Visual question answering	en
dc.subject	Document question answering	en
dc.title	Έλεγχος της ευρωστίας πολυτροπικών μετασχηματιστών μέσω διαταραχών εικόνας και κειμένου	el
dc.title	Testing the robustness of multimodal transformers through image and text perturbations	en
heal.type	masterThesis
heal.classification	Πληροφορική	el
heal.classification	Informatics	en
heal.language	el
heal.language	en
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2024-03-26
heal.abstract	Τα πολυτροπικά μοντέλα έχουν δείξει αξιοσημείωτη απόδοση τα τελευταία χρόνια, ειδικά μοντέλα τα οποία αξιοποιούν δεδομένα σε μορφή εικόνας και κειμένου. Ωστόσο, υπάρχει περιορισμένα έρευνα που εξετάζει την ευρωστία σε σύγκριση με ανάλογα έρευνα πάνω στα μονοτροπικά μοντέλα, τα οποία είναι μοντέλα με ξεχωριστή μορφή αισθητήριας εισόδου, όπως για παράδειγμα μοντέλα εκπαιδευμένα για ταξινόμηση εικόνας και κειμένου. Συγκεκριμένα, η ευρωστία μοντέλων που αξιοποιούν κείμενο ως είσοδο έχει ερευνηθεί διεξοδικά και έχουν αναπ- τυχθεί πολλά εργαλεία που ειδικεύονται σε ανταγωνιστικές επιθέσεις πάνω σε δεδομένα κειμένου. Η ευρωστία μοντέλων που αξιοποιούν εικόνες ως είσοδο έχει κυρίως αξιολογηθεί με την εισαγωγή θορύβου στις εικόνες, αλλά δεν απολαμβάνει τα προνόμια μίας μεγάλης ποικιλίας από εργαλεία όπως τα δεδομένα κειμένου. Ως αποτέλεσμα, υπάρχει μικρός αριθμός από εργαλεία που μπορούν να αξιολογήσουν μοντέλα που συνδυάζουν τις δύο μορφές εισόδου. Οι μετασχηματιστές είναι νευρωνικά δίκτυα που η δημοτικότητά τους έχει αυξηθεί ραγδαία τα τελευταία χρόνια, και αποδίδουν καλύτερα από άλλες αρχιτεκτονικές όπως τα αναδρομικά νευρωνικά δίκτυα στην περιοχή της επεξεργασίας φυσικής γλώσσας. Επίσης υπάρχουν άλλες μορφές μετασχηματιστών όπως οι μετασχηματιστές οράσεως που έχουν αναπτυχθεί να αποδίδουν καλά σε εφαρμογές αναγνώρισης εικόνων όταν εκπαιδεύονται σε μεγάλα σύνολα εικόνων. Ωστόσο, υπάρχει περιορισμένη καταγεγραμμένη πληροφορία πάνω σε μετασχηματιστές που αξιοποιούν εξίσου δεδομένα σε μορφή εικόνας και κειμένου. Σκοπός αυτής της διατριβής είναι η αξιολόγηση της ευρωστίας των πολυτροπικών αξιοποιώντας προεκπαιδευμέ- νους μετασχηματιστές πάνω σε δεδομένα κειμένου και εικόνων. Εξετάζουμε την απόδοση μετασχηματιστών που χρησιμοποιούνται για ανάκτηση εικόνας-κειμένου, εισάγοντας θόρυβο στα δεδομένα εικόνας και κειμένου και καταγράφοντας πώς επηρεάζει τις μετρικές ακριβείας του μοντέλου. Επίσης χρησιμοποιούμε διαφορετικά σύνολα δεδομένων και για παρατηρήσουμε την απόδοση των μοντέλων κάτω από διαφορετικές περιπτώσεις εισό- δου. Παρομοίως, εξετάζουμε την απόδοση των μετασχηματιστών που χρησιμοποιούνται για οπτικά προβλήματα ερωτήσεων-απαντήσεων, εισάγοντας θόρυβο στις εικόνες και παρατηρώντας πόσο ακριβείς είναι οι απαντήσεις στο σύνολο των ερωτήσεων. Παρατηρούμε ότι διαφορετικοί τύποι εικόνων (ρεαλιστικές εικόνες, σχέδια) για ερωτήσεις-απαντήσεις δίνουν δραστικά διαφορετικά αποτελέσματα. Επιπλέον, προτείνουμε και εκπαιδεύουμε ένα νέο μοντέλο βασισμένο σε προεκπαιδευμένο μετασχηματιστή για προβλήματα ερωτήσεων-απαντήσεων σε έγγραφα, που είναι από τους λιγότερα μελετημένους τύπους μοντέλων, και καταγράφουμε την καινούρια του απόδοση και πώς η εισαγωγή θορύβου μπορεί να αλλάξει τα αποτελέσματα.	el
heal.abstract	Multimodal models have shown remarkable performance the past few years, especially models that utilize text and image data. However, there has been limited research on their robustness compared to unimodal models, which are models with a singular form of sensory input such as models trained for image and text classification. The robustness of models that utilize text input specifically has been thoroughly researched and multiple tools have been developed to perform adversarial attacks on text data. The robustness of models that utilize image input has been mainly evaluated by inserting noise at image data, but it does not benefit from a large number of evaluation tools compared to text data. Transformers are neural networks that have gradually increased in popularity the latest years, outperforming other architectures such as Recurrent Neural Networks at the area of natural language processing. There are also different forms of transformers such as Vision Transformer that been developed to perform better at tasks such as image recognition when trained at large image datasets. However, there is limited documentation on transformers that utilize both image and text input data. The purpose of this thesis is to evaluate the robustness of multimodal models by utilizing pre-trained trans- formers with image and text input data. We test the performance of transformers that are used for image-text retrieval by inserting noise at the image and text data and recording how it does affect the accuracy met- rics of the model. We also use different datasets to observe the performance of the models under different circumstances of input. Similarly, we test the performance of transformers that are used for visual question answering by inserting noise to the images and observing how accurate the answers to a list of questions are. We observe that different stylεs of images (realistic images, drawings) for visual question answering give drastically different results. Furthermore, we propose and train a new model based on a pre-trained transformer for document question answering, which is one of the least documented model types, and record its new performance and how inserted noise can change the results.	en
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών.Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false