HEAL DSpace

Linguistic counterfactuals for visual question answering

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Στόικου, Θεοδότη el
dc.contributor.author Stoikou, Theodoti en
dc.date.accessioned 2023-10-02T10:02:13Z
dc.date.available 2023-10-02T10:02:13Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58110
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25807
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Artificial Intelligence en
dc.subject Explainability en
dc.subject Robustness en
dc.subject Visiolinguistic Learning en
dc.subject Knowledge Graphs en
dc.subject Τεχνητή Νοημοσύνη el
dc.subject Επεξηγησιμότητα el
dc.subject Ευρωστία el
dc.subject Οπτικογλωσσική Μάθηση el
dc.subject Γράφοι Γνώσης el
dc.title Linguistic counterfactuals for visual question answering en
heal.type bachelorThesis
heal.classification Artificial Intelligence en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-07-07
heal.abstract Visual Question Answering (VQA) has been a popular task that combines vision and language, with numerous relevant implementations in literature. Even though there are some attempts that approach explainability and robustness issues in VQA models, very few of them employ counterfactuals as a means of probing such challenges in a model-agnostic way. In this diploma thesis, we propose a systematic method for explaining the behavior and investigating the robustness of VQA models through counterfactual perturbations. For this reason, we exploit structured knowledge bases to perform deterministic, optimal and controllable word-level replacements targeting the linguistic modality, and we then evaluate the model’s response against such counterfactual inputs. Finally, we qualitatively extract local and global explanations based on counterfactual responses, which are ultimately proven insightful in interpreting VQA model behaviors. By performing a variety of perturbation types, targeting different parts of speech of the input question, we gain insights into the reasoning of the model, through the comparison of its responses in different adversarial circumstances. Overall, we reveal possible biases in the decision-making process of the model, as well as expected and unexpected patterns, which impact its performance quantitatively and qualitatively, as indicated by our analysis. en
heal.abstract Η απάντηση οπτικών ερωτήσεων (Visual Question Answering - VQA) είναι μια δημοφιλής εργασία που συνδυάζει την όραση και τη γλώσσα, με πολλές σχετικές υλοποιήσεις στη βιβλιογραφία. Παρόλο που υπάρχουν κάποιες προσπάθειες που προσεγγίζουν ζητήματα εξηγησιμότητας και ευρωστίας σε μοντέλα VQA, πολύ λίγες από αυτές χρησιμοποιούν αντιπαραδείγματα ως μέσο διερεύνησης τέτοιων προκλήσεων με τρόπο γενικεύσιμο ως προς τα μοντέλα. Στην παρούσα διπλωματική εργασία, προτείνουμε μια συστηματική μέθοδο για την εξήγηση της συμπεριφοράς και τη διερεύνηση της ευρωστίας των μοντέλων VQA μέσω αντιπαραδειγματικών διαταραχών. Για το λόγο αυτό, αξιοποιούμε δομημένες βάσεις γνώσης για να εκτελέσουμε ντετερμινιστικές, βέλτιστες και ελεγχόμενες αντικαταστάσεις σε επίπεδο λέξεων που στοχεύουν στη γλωσσική μορφολογία εισόδου, και στη συνέχεια αξιολογούμε την απόκριση του μοντέλου έναντι τέτοιων αντιφατικών εισόδων. Τέλος, εξάγουμε ποιοτικές τοπικές και συνολικές εξηγήσεις με βάση τις αντιπαραδειγματικές αποκρίσεις, οι οποίες τελικά αποδεικνύονται κατατοπιστικές για την ερμηνεία της συμπεριφοράς του μοντέλου VQA. Πραγματοποιώντας μια ποικιλία τύπων διαταραχών, που στοχεύουν σε διαφορετικά μέρη του λόγου της ερώτησης εισόδου, αποκτούμε γνώσεις σχετικά με τη συλλογιστική του μοντέλου, μέσω της σύγκρισης των απαντήσεών του σε διαφορετικές αντιπαραθετικές συνθήκες. Συνολικά, αποκαλύπτουμε πιθανές προκαταλήψεις στη διαδικασία λήψης αποφάσεων του μοντέλου, καθώς και αναμενόμενα και απροσδόκητα μοτίβα, τα οποία επηρεάζουν ποσοτικά και ποιοτικά την απόδοσή του, όπως υποδεικνύεται από την ανάλυσή μας. el
heal.advisorName Στάμου, Γιώργος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 101 σ. el
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα