dc.contributor.author | Στόικου, Θεοδότη | el |
dc.contributor.author | Stoikou, Theodoti | en |
dc.date.accessioned | 2023-10-02T10:02:13Z | |
dc.date.available | 2023-10-02T10:02:13Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/58110 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.25807 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Artificial Intelligence | en |
dc.subject | Explainability | en |
dc.subject | Robustness | en |
dc.subject | Visiolinguistic Learning | en |
dc.subject | Knowledge Graphs | en |
dc.subject | Τεχνητή Νοημοσύνη | el |
dc.subject | Επεξηγησιμότητα | el |
dc.subject | Ευρωστία | el |
dc.subject | Οπτικογλωσσική Μάθηση | el |
dc.subject | Γράφοι Γνώσης | el |
dc.title | Linguistic counterfactuals for visual question answering | en |
heal.type | bachelorThesis | |
heal.classification | Artificial Intelligence | en |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-07-07 | |
heal.abstract | Visual Question Answering (VQA) has been a popular task that combines vision and language, with numerous relevant implementations in literature. Even though there are some attempts that approach explainability and robustness issues in VQA models, very few of them employ counterfactuals as a means of probing such challenges in a model-agnostic way. In this diploma thesis, we propose a systematic method for explaining the behavior and investigating the robustness of VQA models through counterfactual perturbations. For this reason, we exploit structured knowledge bases to perform deterministic, optimal and controllable word-level replacements targeting the linguistic modality, and we then evaluate the model’s response against such counterfactual inputs. Finally, we qualitatively extract local and global explanations based on counterfactual responses, which are ultimately proven insightful in interpreting VQA model behaviors. By performing a variety of perturbation types, targeting different parts of speech of the input question, we gain insights into the reasoning of the model, through the comparison of its responses in different adversarial circumstances. Overall, we reveal possible biases in the decision-making process of the model, as well as expected and unexpected patterns, which impact its performance quantitatively and qualitatively, as indicated by our analysis. | en |
heal.abstract | Η απάντηση οπτικών ερωτήσεων (Visual Question Answering - VQA) είναι μια δημοφιλής εργασία που συνδυάζει την όραση και τη γλώσσα, με πολλές σχετικές υλοποιήσεις στη βιβλιογραφία. Παρόλο που υπάρχουν κάποιες προσπάθειες που προσεγγίζουν ζητήματα εξηγησιμότητας και ευρωστίας σε μοντέλα VQA, πολύ λίγες από αυτές χρησιμοποιούν αντιπαραδείγματα ως μέσο διερεύνησης τέτοιων προκλήσεων με τρόπο γενικεύσιμο ως προς τα μοντέλα. Στην παρούσα διπλωματική εργασία, προτείνουμε μια συστηματική μέθοδο για την εξήγηση της συμπεριφοράς και τη διερεύνηση της ευρωστίας των μοντέλων VQA μέσω αντιπαραδειγματικών διαταραχών. Για το λόγο αυτό, αξιοποιούμε δομημένες βάσεις γνώσης για να εκτελέσουμε ντετερμινιστικές, βέλτιστες και ελεγχόμενες αντικαταστάσεις σε επίπεδο λέξεων που στοχεύουν στη γλωσσική μορφολογία εισόδου, και στη συνέχεια αξιολογούμε την απόκριση του μοντέλου έναντι τέτοιων αντιφατικών εισόδων. Τέλος, εξάγουμε ποιοτικές τοπικές και συνολικές εξηγήσεις με βάση τις αντιπαραδειγματικές αποκρίσεις, οι οποίες τελικά αποδεικνύονται κατατοπιστικές για την ερμηνεία της συμπεριφοράς του μοντέλου VQA. Πραγματοποιώντας μια ποικιλία τύπων διαταραχών, που στοχεύουν σε διαφορετικά μέρη του λόγου της ερώτησης εισόδου, αποκτούμε γνώσεις σχετικά με τη συλλογιστική του μοντέλου, μέσω της σύγκρισης των απαντήσεών του σε διαφορετικές αντιπαραθετικές συνθήκες. Συνολικά, αποκαλύπτουμε πιθανές προκαταλήψεις στη διαδικασία λήψης αποφάσεων του μοντέλου, καθώς και αναμενόμενα και απροσδόκητα μοτίβα, τα οποία επηρεάζουν ποσοτικά και ποιοτικά την απόδοσή του, όπως υποδεικνύεται από την ανάλυσή μας. | el |
heal.advisorName | Στάμου, Γιώργος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Βουλόδημος, Αθανάσιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 101 σ. | el |
heal.fullTextAvailability | false |
The following license files are associated with this item: