Linguistic counterfactuals for visual question answering

Στόικου, Θεοδότη; Stoikou, Theodoti

dc.contributor.author	Στόικου, Θεοδότη	el
dc.contributor.author	Stoikou, Theodoti	en
dc.date.accessioned	2023-10-02T10:02:13Z
dc.date.available	2023-10-02T10:02:13Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58110
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25807
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Artificial Intelligence	en
dc.subject	Explainability	en
dc.subject	Robustness	en
dc.subject	Visiolinguistic Learning	en
dc.subject	Knowledge Graphs	en
dc.subject	Τεχνητή Νοημοσύνη	el
dc.subject	Επεξηγησιμότητα	el
dc.subject	Ευρωστία	el
dc.subject	Οπτικογλωσσική Μάθηση	el
dc.subject	Γράφοι Γνώσης	el
dc.title	Linguistic counterfactuals for visual question answering	en
heal.type	bachelorThesis
heal.classification	Artificial Intelligence	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-07-07
heal.abstract	Visual Question Answering (VQA) has been a popular task that combines vision and language, with numerous relevant implementations in literature. Even though there are some attempts that approach explainability and robustness issues in VQA models, very few of them employ counterfactuals as a means of probing such challenges in a model-agnostic way. In this diploma thesis, we propose a systematic method for explaining the behavior and investigating the robustness of VQA models through counterfactual perturbations. For this reason, we exploit structured knowledge bases to perform deterministic, optimal and controllable word-level replacements targeting the linguistic modality, and we then evaluate the model’s response against such counterfactual inputs. Finally, we qualitatively extract local and global explanations based on counterfactual responses, which are ultimately proven insightful in interpreting VQA model behaviors. By performing a variety of perturbation types, targeting different parts of speech of the input question, we gain insights into the reasoning of the model, through the comparison of its responses in different adversarial circumstances. Overall, we reveal possible biases in the decision-making process of the model, as well as expected and unexpected patterns, which impact its performance quantitatively and qualitatively, as indicated by our analysis.	en
heal.abstract	Η απάντηση οπτικών ερωτήσεων (Visual Question Answering - VQA) είναι μια δημοφιλής εργασία που συνδυάζει την όραση και τη γλώσσα, με πολλές σχετικές υλοποιήσεις στη βιβλιογραφία. Παρόλο που υπάρχουν κάποιες προσπάθειες που προσεγγίζουν ζητήματα εξηγησιμότητας και ευρωστίας σε μοντέλα VQA, πολύ λίγες από αυτές χρησιμοποιούν αντιπαραδείγματα ως μέσο διερεύνησης τέτοιων προκλήσεων με τρόπο γενικεύσιμο ως προς τα μοντέλα. Στην παρούσα διπλωματική εργασία, προτείνουμε μια συστηματική μέθοδο για την εξήγηση της συμπεριφοράς και τη διερεύνηση της ευρωστίας των μοντέλων VQA μέσω αντιπαραδειγματικών διαταραχών. Για το λόγο αυτό, αξιοποιούμε δομημένες βάσεις γνώσης για να εκτελέσουμε ντετερμινιστικές, βέλτιστες και ελεγχόμενες αντικαταστάσεις σε επίπεδο λέξεων που στοχεύουν στη γλωσσική μορφολογία εισόδου, και στη συνέχεια αξιολογούμε την απόκριση του μοντέλου έναντι τέτοιων αντιφατικών εισόδων. Τέλος, εξάγουμε ποιοτικές τοπικές και συνολικές εξηγήσεις με βάση τις αντιπαραδειγματικές αποκρίσεις, οι οποίες τελικά αποδεικνύονται κατατοπιστικές για την ερμηνεία της συμπεριφοράς του μοντέλου VQA. Πραγματοποιώντας μια ποικιλία τύπων διαταραχών, που στοχεύουν σε διαφορετικά μέρη του λόγου της ερώτησης εισόδου, αποκτούμε γνώσεις σχετικά με τη συλλογιστική του μοντέλου, μέσω της σύγκρισης των απαντήσεών του σε διαφορετικές αντιπαραθετικές συνθήκες. Συνολικά, αποκαλύπτουμε πιθανές προκαταλήψεις στη διαδικασία λήψης αποφάσεων του μοντέλου, καθώς και αναμενόμενα και απροσδόκητα μοτίβα, τα οποία επηρεάζουν ποσοτικά και ποιοτικά την απόδοσή του, όπως υποδεικνύεται από την ανάλυσή μας.	el
heal.advisorName	Στάμου, Γιώργος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	101 σ.	el
heal.fullTextAvailability	false