dc.contributor.author | Σαλάπας, Κωνσταντίνος | el |
dc.contributor.author | Salapas, Konstantinos | en |
dc.date.accessioned | 2024-07-11T06:55:16Z | |
dc.date.available | 2024-07-11T06:55:16Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/59852 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.27548 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" | el |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Μετασχηματιστές | el |
dc.subject | Οπτικά ερωτήματα-απαντήσεις | el |
dc.subject | Διαταραχές κειμένου-εικόνας | el |
dc.subject | Ανάκτηση εικόνας-κειμένου | el |
dc.subject | Ερωτήματα-απαντήσεις σε κείμενο | el |
dc.subject | Transformers | en |
dc.subject | Image and text perturbations | en |
dc.subject | Image-text retrieval | en |
dc.subject | Visual question answering | en |
dc.subject | Document question answering | en |
dc.title | Έλεγχος της ευρωστίας πολυτροπικών μετασχηματιστών μέσω διαταραχών εικόνας και κειμένου | el |
dc.title | Testing the robustness of multimodal transformers through image and text perturbations | en |
heal.type | masterThesis | |
heal.classification | Πληροφορική | el |
heal.classification | Informatics | en |
heal.language | el | |
heal.language | en | |
heal.access | campus | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-03-26 | |
heal.abstract | Τα πολυτροπικά μοντέλα έχουν δείξει αξιοσημείωτη απόδοση τα τελευταία χρόνια, ειδικά μοντέλα τα οποία αξιοποιούν δεδομένα σε μορφή εικόνας και κειμένου. Ωστόσο, υπάρχει περιορισμένα έρευνα που εξετάζει την ευρωστία σε σύγκριση με ανάλογα έρευνα πάνω στα μονοτροπικά μοντέλα, τα οποία είναι μοντέλα με ξεχωριστή μορφή αισθητήριας εισόδου, όπως για παράδειγμα μοντέλα εκπαιδευμένα για ταξινόμηση εικόνας και κειμένου. Συγκεκριμένα, η ευρωστία μοντέλων που αξιοποιούν κείμενο ως είσοδο έχει ερευνηθεί διεξοδικά και έχουν αναπ- τυχθεί πολλά εργαλεία που ειδικεύονται σε ανταγωνιστικές επιθέσεις πάνω σε δεδομένα κειμένου. Η ευρωστία μοντέλων που αξιοποιούν εικόνες ως είσοδο έχει κυρίως αξιολογηθεί με την εισαγωγή θορύβου στις εικόνες, αλλά δεν απολαμβάνει τα προνόμια μίας μεγάλης ποικιλίας από εργαλεία όπως τα δεδομένα κειμένου. Ως αποτέλεσμα, υπάρχει μικρός αριθμός από εργαλεία που μπορούν να αξιολογήσουν μοντέλα που συνδυάζουν τις δύο μορφές εισόδου. Οι μετασχηματιστές είναι νευρωνικά δίκτυα που η δημοτικότητά τους έχει αυξηθεί ραγδαία τα τελευταία χρόνια, και αποδίδουν καλύτερα από άλλες αρχιτεκτονικές όπως τα αναδρομικά νευρωνικά δίκτυα στην περιοχή της επεξεργασίας φυσικής γλώσσας. Επίσης υπάρχουν άλλες μορφές μετασχηματιστών όπως οι μετασχηματιστές οράσεως που έχουν αναπτυχθεί να αποδίδουν καλά σε εφαρμογές αναγνώρισης εικόνων όταν εκπαιδεύονται σε μεγάλα σύνολα εικόνων. Ωστόσο, υπάρχει περιορισμένη καταγεγραμμένη πληροφορία πάνω σε μετασχηματιστές που αξιοποιούν εξίσου δεδομένα σε μορφή εικόνας και κειμένου. Σκοπός αυτής της διατριβής είναι η αξιολόγηση της ευρωστίας των πολυτροπικών αξιοποιώντας προεκπαιδευμέ- νους μετασχηματιστές πάνω σε δεδομένα κειμένου και εικόνων. Εξετάζουμε την απόδοση μετασχηματιστών που χρησιμοποιούνται για ανάκτηση εικόνας-κειμένου, εισάγοντας θόρυβο στα δεδομένα εικόνας και κειμένου και καταγράφοντας πώς επηρεάζει τις μετρικές ακριβείας του μοντέλου. Επίσης χρησιμοποιούμε διαφορετικά σύνολα δεδομένων και για παρατηρήσουμε την απόδοση των μοντέλων κάτω από διαφορετικές περιπτώσεις εισό- δου. Παρομοίως, εξετάζουμε την απόδοση των μετασχηματιστών που χρησιμοποιούνται για οπτικά προβλήματα ερωτήσεων-απαντήσεων, εισάγοντας θόρυβο στις εικόνες και παρατηρώντας πόσο ακριβείς είναι οι απαντήσεις στο σύνολο των ερωτήσεων. Παρατηρούμε ότι διαφορετικοί τύποι εικόνων (ρεαλιστικές εικόνες, σχέδια) για ερωτήσεις-απαντήσεις δίνουν δραστικά διαφορετικά αποτελέσματα. Επιπλέον, προτείνουμε και εκπαιδεύουμε ένα νέο μοντέλο βασισμένο σε προεκπαιδευμένο μετασχηματιστή για προβλήματα ερωτήσεων-απαντήσεων σε έγγραφα, που είναι από τους λιγότερα μελετημένους τύπους μοντέλων, και καταγράφουμε την καινούρια του απόδοση και πώς η εισαγωγή θορύβου μπορεί να αλλάξει τα αποτελέσματα. | el |
heal.abstract | Multimodal models have shown remarkable performance the past few years, especially models that utilize text and image data. However, there has been limited research on their robustness compared to unimodal models, which are models with a singular form of sensory input such as models trained for image and text classification. The robustness of models that utilize text input specifically has been thoroughly researched and multiple tools have been developed to perform adversarial attacks on text data. The robustness of models that utilize image input has been mainly evaluated by inserting noise at image data, but it does not benefit from a large number of evaluation tools compared to text data. Transformers are neural networks that have gradually increased in popularity the latest years, outperforming other architectures such as Recurrent Neural Networks at the area of natural language processing. There are also different forms of transformers such as Vision Transformer that been developed to perform better at tasks such as image recognition when trained at large image datasets. However, there is limited documentation on transformers that utilize both image and text input data. The purpose of this thesis is to evaluate the robustness of multimodal models by utilizing pre-trained trans- formers with image and text input data. We test the performance of transformers that are used for image-text retrieval by inserting noise at the image and text data and recording how it does affect the accuracy met- rics of the model. We also use different datasets to observe the performance of the models under different circumstances of input. Similarly, we test the performance of transformers that are used for visual question answering by inserting noise to the images and observing how accurate the answers to a list of questions are. We observe that different stylεs of images (realistic images, drawings) for visual question answering give drastically different results. Furthermore, we propose and train a new model based on a pre-trained transformer for document question answering, which is one of the least documented model types, and record its new performance and how inserted noise can change the results. | en |
heal.advisorName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Βουλόδημος, Αθανάσιος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών.Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης | el |
heal.academicPublisherID | ntua | |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: