| dc.contributor.author | Φιλανδριανός, Γεώργιος
|
|
| dc.contributor.author | Filandrianos, Giorgos
|
|
| dc.date.accessioned | 2025-09-22T09:38:48Z | |
| dc.date.available | 2025-09-22T09:38:48Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62505 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30201 | |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject | Explainable AI | en |
| dc.subject | Εξηγήσιμη Τεχνητή Νοημοσύνη | el |
| dc.title | Generation and Evaluation of Semantic Counterfactual Explanations | en |
| dc.title | Δημιουργία και Αξιολόγηση Σημασιολογικών Επεξηγήσεων Μέσω Αντιπαραδειγμάτων | el |
| dc.contributor.department | Artificial Intelligence and Learning Systems Laboratory (AILS) | el |
| heal.type | doctoralThesis | |
| heal.classification | Computer Science | en |
| heal.classification | Artificial Intelligence | en |
| heal.classification | Τεχνητή Νοημοσύνη | el |
| heal.classification | Επιστήμη Υπολογιστών | el |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-05-23 | |
| heal.abstract | Η Τεχνητή Νοημοσύνη (ΤΝ) έχει σημειώσει σημαντική πρόοδο, μεταβαίνοντας από ερευνητικά πρωτότυπα σε ευρείας κλίμακας εφαρμογές στους τομείς της υγείας, των χρηματοοικονομικών, της ασφάλειας και των μεταφορών. Παρά την επιτυχία τους, τα μοντέλα ΤΝ συχνά λειτουργούν ως αδιαφανείς"μαύρα κουτιά", εγείροντας ανησυχίες σχετικά με την εμπιστοσύνη, την αποδοχή και τον κίνδυνο σε εφαρμογές υψηλού ρίσκου. Η επεξηγήσιμη τεχνητή νοημοσύνη αντιμετωπίζει αυτά τα ζητήματα αναπτύσσοντας μεθόδους που βελτιώνουν την ανθρώπινη κατανόηση σύνθετων μοντέλων. Η παρούσα διατριβή εστιάζει στις σημασιολογικές επεξηγήσεις μέσω αντιπαραδειγμάτων, οι οποίες καθορίζουν τις ελάχιστες τροποποιήσεις εισόδου που απαιτούνται για την αλλαγή της πρόβλεψης ενός μοντέλου ΤΝ. Παρουσιάζεται ένα ανεξάρτητο από το πεδίο εφαρμογής και του υποκείμενου μοντέλου πλαίσιο για τη δημιουργία αντιπαραδειγματικών εξηγήσεων, το οποίο δοκιμάστηκε σε πολλαπλές μορφές δε- δομένων, όπως εικόνες, κείμενο και ήχος. Στο πλαίσιο αυτό, εξερευνώνται διάφορες αλγοριθμικές προσεγγίσεις, συμπεριλαμβανομένων των νευρωνικών δικτύων γραφών για δομημένα δεδομένα και μη νευρωνικών τεχνικών βελτιστοποίησης για τη σύνθεση αντιπαραδειγμάτων με την χρήση γραφών γνώσης. Πέρα από τη δημιουργία, η παρούσα εργασία εισάγει μια νέα μεθοδολογία αξιολόγησης για την εκτίμηση της βελτιστότητας των αλγορίθμων παραγωγής επεξηγήσεων μέσω αντιπαραδειγμάτων,αξιοποιώντας μια προσέγγιση εμπνευσμένη από την τεχνική της αντίστροφης μετάφρασης. Αυτή η μέθοδος αξιολόγησης παρέχει βαθύτερη κατανόηση της σχέσης μεταξύ της ελαχιστοποίησης των τροποποιήσεων και της σημασιολογικής εγκυρότητάς τους, αποκαλύπτοντας ιδιότητες των αλγορίθμων δημιουργίας αντιπαραδειγμάτων που θα παρέμεναν αθέατες υπό τα παραδοσιακά πρότυπα αξιολόγησης. Επιπλέον, το προτεινόμενο πλαίσιο επεκτείνεται πέρα από τις κλασικές εφαρμογές της επεξηγησιμότητας. Χρησι- μοποιείται για την ανίχνευση παραισθήσεων σε μεγάλα οπτικο-γλωσσικά Μοντέλα και για τη λεπτομερή αξ- ιολόγηση γενετικών μοντέλων σε εικόνες και οπτικοποίηση ιστοριών. Επιπρόσθετα, διερευνώνται οι συλλο- γιστικές ικανότητες των μεγάλων γλωσσικών μοντέλων, ιδιαίτερα στην επίλυση γρίφων, όπου αποδεικνύεται ότι η χρήση αντιπαραδειγμάτων στην είσοδο βελτιώνει την απόδοσή τους. Παράλληλα, μέσα από αντιπα- ραδειγματικές επεξηγήσεις αναδεικνύεται η επίδραση γνωστών γνωσιακών προκαταλήψεων, ιδίως όταν τα εν λόγω μοντέλα αξιοποιούνται ως συστήματα συστάσεων. Εκτενείς πειραματικές αξιολογήσεις επικυρώνουν την αποτελεσματικότητα του πλαισίου σε διαφορετικούς τομείς, αποδεικνύοντας τη δυνατότητα του να ενισχύσει την ερμηνευσιμότητα, την αξιοπιστία και τη γενίκευση τόσο στις επεξηγήσιμες εφαρμογές ΤΝ όσο και σε άλλες περιοχές της τεχνητής νοημοσύνης. | el |
| heal.abstract | Artificial Intelligence (AI) has made significant strides, transitioning from research prototypes to large-scale deployments in healthcare, finance, security, and transportation. Despite their success, AI models often function as opaque black boxes, raising concerns about trust, adoption, and risk in high-stakes applications. Explainable AI (XAI) addresses these issues by developing methods to enhance human interpretability of complex models. This dissertation focuses on counterfactual explanations, which determine the minimal input modifications required to alter an AI model’s prediction. A domain-agnostic, black-box framework for counterfactual gen- eration is introduced, applicable across multiple data modalities, including images, text, and audio. Within this framework, various algorithmic approaches are explored, including Graph Neural Networks (GNNs) for structured data and non-neural optimization techniques for counterfactual synthesis. Beyond generation, this work introduces a novel evaluation methodology for assessing counterfactual optimal- ity, specifically leveraging a back-translation-inspired approach to verify whether the applied modifications are truly minimal. This evaluation method provides deeper insights into the balance between the minimality of edits and their semantic validity, revealing properties of counterfactual generation algorithms that would otherwise remain obscured. Additionally, the proposed framework extends beyond traditional XAI applications. It is leveraged for hallucination detection in Large Vision-Language Models (LVLMs) and fine-grained evaluation of generative models in both image and story generation. Furthermore, Large Language Models (LLM) reasoning capabil- ities are investigated, particularly in riddle-solving, where counterfactual-based interventions enhance logical reasoning in large-scale language models. At the same time, through counterexample-based explanations, the influence of well-known cognitive biases is highlighted, especially when such models are employed as recommendation systems. Comprehensive empirical evaluations validate the framework’s effectiveness across diverse domains, demon- strating its ability to enhance interpretability, robustness, and generalizability in both explainability and downstream AI applications. | en |
| heal.advisorName | Στάμου, Γεώργιος | |
| heal.advisorName | Stamou, Giorgos | |
| heal.committeeMemberName | Στάμου, Γεώργιος | |
| heal.committeeMemberName | Βουλόδημος, Αθανάσιος | |
| heal.committeeMemberName | Βαζιργιάννης, Μιχαήλ | |
| heal.committeeMemberName | Νικήτα, Κωνσταντίνα | |
| heal.committeeMemberName | Κοζύρης, Νεκτάριος | |
| heal.committeeMemberName | Καρκαλέτσης, Ευάγγελος | |
| heal.committeeMemberName | Ζέρβα, Χρυσούλα | |
| heal.academicPublisher | Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
| heal.academicPublisherID | ntua | |
| heal.numberOfPages | 246 | |
| heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: