Generation and Evaluation of Semantic Counterfactual Explanations

Φιλανδριανός, Γεώργιος; Filandrianos, Giorgos

dc.contributor.author	Φιλανδριανός, Γεώργιος
dc.contributor.author	Filandrianos, Giorgos
dc.date.accessioned	2025-09-22T09:38:48Z
dc.date.available	2025-09-22T09:38:48Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/62505
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.30201
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Explainable AI	en
dc.subject	Εξηγήσιμη Τεχνητή Νοημοσύνη	el
dc.title	Generation and Evaluation of Semantic Counterfactual Explanations	en
dc.title	Δημιουργία και Αξιολόγηση Σημασιολογικών Επεξηγήσεων Μέσω Αντιπαραδειγμάτων	el
dc.contributor.department	Artificial Intelligence and Learning Systems Laboratory (AILS)	el
heal.type	doctoralThesis
heal.classification	Computer Science	en
heal.classification	Artificial Intelligence	en
heal.classification	Τεχνητή Νοημοσύνη	el
heal.classification	Επιστήμη Υπολογιστών	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-05-23
heal.abstract	Η Τεχνητή Νοημοσύνη (ΤΝ) έχει σημειώσει σημαντική πρόοδο, μεταβαίνοντας από ερευνητικά πρωτότυπα σε ευρείας κλίμακας εφαρμογές στους τομείς της υγείας, των χρηματοοικονομικών, της ασφάλειας και των μεταφορών. Παρά την επιτυχία τους, τα μοντέλα ΤΝ συχνά λειτουργούν ως αδιαφανείς"μαύρα κουτιά", εγείροντας ανησυχίες σχετικά με την εμπιστοσύνη, την αποδοχή και τον κίνδυνο σε εφαρμογές υψηλού ρίσκου. Η επεξηγήσιμη τεχνητή νοημοσύνη αντιμετωπίζει αυτά τα ζητήματα αναπτύσσοντας μεθόδους που βελτιώνουν την ανθρώπινη κατανόηση σύνθετων μοντέλων. Η παρούσα διατριβή εστιάζει στις σημασιολογικές επεξηγήσεις μέσω αντιπαραδειγμάτων, οι οποίες καθορίζουν τις ελάχιστες τροποποιήσεις εισόδου που απαιτούνται για την αλλαγή της πρόβλεψης ενός μοντέλου ΤΝ. Παρουσιάζεται ένα ανεξάρτητο από το πεδίο εφαρμογής και του υποκείμενου μοντέλου πλαίσιο για τη δημιουργία αντιπαραδειγματικών εξηγήσεων, το οποίο δοκιμάστηκε σε πολλαπλές μορφές δε- δομένων, όπως εικόνες, κείμενο και ήχος. Στο πλαίσιο αυτό, εξερευνώνται διάφορες αλγοριθμικές προσεγγίσεις, συμπεριλαμβανομένων των νευρωνικών δικτύων γραφών για δομημένα δεδομένα και μη νευρωνικών τεχνικών βελτιστοποίησης για τη σύνθεση αντιπαραδειγμάτων με την χρήση γραφών γνώσης. Πέρα από τη δημιουργία, η παρούσα εργασία εισάγει μια νέα μεθοδολογία αξιολόγησης για την εκτίμηση της βελτιστότητας των αλγορίθμων παραγωγής επεξηγήσεων μέσω αντιπαραδειγμάτων,αξιοποιώντας μια προσέγγιση εμπνευσμένη από την τεχνική της αντίστροφης μετάφρασης. Αυτή η μέθοδος αξιολόγησης παρέχει βαθύτερη κατανόηση της σχέσης μεταξύ της ελαχιστοποίησης των τροποποιήσεων και της σημασιολογικής εγκυρότητάς τους, αποκαλύπτοντας ιδιότητες των αλγορίθμων δημιουργίας αντιπαραδειγμάτων που θα παρέμεναν αθέατες υπό τα παραδοσιακά πρότυπα αξιολόγησης. Επιπλέον, το προτεινόμενο πλαίσιο επεκτείνεται πέρα από τις κλασικές εφαρμογές της επεξηγησιμότητας. Χρησι- μοποιείται για την ανίχνευση παραισθήσεων σε μεγάλα οπτικο-γλωσσικά Μοντέλα και για τη λεπτομερή αξ- ιολόγηση γενετικών μοντέλων σε εικόνες και οπτικοποίηση ιστοριών. Επιπρόσθετα, διερευνώνται οι συλλο- γιστικές ικανότητες των μεγάλων γλωσσικών μοντέλων, ιδιαίτερα στην επίλυση γρίφων, όπου αποδεικνύεται ότι η χρήση αντιπαραδειγμάτων στην είσοδο βελτιώνει την απόδοσή τους. Παράλληλα, μέσα από αντιπα- ραδειγματικές επεξηγήσεις αναδεικνύεται η επίδραση γνωστών γνωσιακών προκαταλήψεων, ιδίως όταν τα εν λόγω μοντέλα αξιοποιούνται ως συστήματα συστάσεων. Εκτενείς πειραματικές αξιολογήσεις επικυρώνουν την αποτελεσματικότητα του πλαισίου σε διαφορετικούς τομείς, αποδεικνύοντας τη δυνατότητα του να ενισχύσει την ερμηνευσιμότητα, την αξιοπιστία και τη γενίκευση τόσο στις επεξηγήσιμες εφαρμογές ΤΝ όσο και σε άλλες περιοχές της τεχνητής νοημοσύνης.	el
heal.abstract	Artificial Intelligence (AI) has made significant strides, transitioning from research prototypes to large-scale deployments in healthcare, finance, security, and transportation. Despite their success, AI models often function as opaque black boxes, raising concerns about trust, adoption, and risk in high-stakes applications. Explainable AI (XAI) addresses these issues by developing methods to enhance human interpretability of complex models. This dissertation focuses on counterfactual explanations, which determine the minimal input modifications required to alter an AI model’s prediction. A domain-agnostic, black-box framework for counterfactual gen- eration is introduced, applicable across multiple data modalities, including images, text, and audio. Within this framework, various algorithmic approaches are explored, including Graph Neural Networks (GNNs) for structured data and non-neural optimization techniques for counterfactual synthesis. Beyond generation, this work introduces a novel evaluation methodology for assessing counterfactual optimal- ity, specifically leveraging a back-translation-inspired approach to verify whether the applied modifications are truly minimal. This evaluation method provides deeper insights into the balance between the minimality of edits and their semantic validity, revealing properties of counterfactual generation algorithms that would otherwise remain obscured. Additionally, the proposed framework extends beyond traditional XAI applications. It is leveraged for hallucination detection in Large Vision-Language Models (LVLMs) and fine-grained evaluation of generative models in both image and story generation. Furthermore, Large Language Models (LLM) reasoning capabil- ities are investigated, particularly in riddle-solving, where counterfactual-based interventions enhance logical reasoning in large-scale language models. At the same time, through counterexample-based explanations, the influence of well-known cognitive biases is highlighted, especially when such models are employed as recommendation systems. Comprehensive empirical evaluations validate the framework’s effectiveness across diverse domains, demon- strating its ability to enhance interpretability, robustness, and generalizability in both explainability and downstream AI applications.	en
heal.advisorName	Στάμου, Γεώργιος
heal.advisorName	Stamou, Giorgos
heal.committeeMemberName	Στάμου, Γεώργιος
heal.committeeMemberName	Βουλόδημος, Αθανάσιος
heal.committeeMemberName	Βαζιργιάννης, Μιχαήλ
heal.committeeMemberName	Νικήτα, Κωνσταντίνα
heal.committeeMemberName	Κοζύρης, Νεκτάριος
heal.committeeMemberName	Καρκαλέτσης, Ευάγγελος
heal.committeeMemberName	Ζέρβα, Χρυσούλα
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	246
heal.fullTextAvailability	false