Exploring text counterfactual explanations: a multi-metric evaluation approach for counterfactual editors

Karavangelis, Athanasios; Καραβαγγέλης, Αθανάσιος

dc.contributor.author	Karavangelis, Athanasios	en
dc.contributor.author	Καραβαγγέλης, Αθανάσιος	el
dc.date.accessioned	2023-09-07T09:02:21Z
dc.date.available	2023-09-07T09:02:21Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58035
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25732
dc.rights	Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/gr/	*
dc.subject	Εξηγήσιμη Τεχνητή Νοημοσύνη	el
dc.subject	Εξηγήσεις με Αντιπαράδειγμα	el
dc.subject	Αντιφατικά Κείμενα	el
dc.subject	Μοντέλα Μηχανικής Μάθησης	el
dc.subject	Παραγωγή Κειμένου	el
dc.subject	Explainable AI	en
dc.subject	Counterfactual Explanations	en
dc.subject	Text Counterfactuals	en
dc.subject	Machine Learning Models	en
dc.subject	Text Generation	en
dc.title	Exploring text counterfactual explanations: a multi-metric evaluation approach for counterfactual editors	en
heal.type	bachelorThesis
heal.classification	Τεχνητή Νοημοσύνη	el
heal.classification	Artificial Intelligence	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-07-03
heal.abstract	Amidst the exponential growth and breakthroughs in machine learning (ML) and its profound impact on critical domains, the need for interpretability of the models is paramount. A bridge for this model-human gap is provided by Explainable AI (XAI), which has seen rapid progress in recent years, adding transparency to machine learning processes. In this work, we focus on counterfactual explanations, a method that provides insights into the decision-making process of machine learning models by exploring alternative scenarios and hypothetical transformations. Specifically, we are concerned with the generation of text counterfactual explanations and the evaluation of counterfactual editors, which leverage natural language processing (NLP) models and tasks to generate perturbations of text sentences. Our approach involves experimenting with multiple counterfactual editors from the recent literature, models, and generation methods in order to understand their inner mechanisms and make their decisions comprehensive. In order to achieve this, we present a counterfactual editing system where we generate counterfactual, contrastive edits combining counterfactual editors with a predictor and then selecting the most minimal edit that flips the predictor’s original prediction. Moreover, we utilize methods of counterfactual generation used in current academic publications and introduce a novel method of generating counterfactual edits using part-of-speech tags to constrain the generation. We also explore multiple evaluation techniques and metrics that allow us to extract valuable conclusions that cover numerous aspects of counterfactual generation. In summary, our experiments have yielded valuable conclusions and insights. We manage to unveil hidden characteristics and patterns of counterfactual editors, explain their results, and explore various aspects of counterfactual generation. Our experiments showcase performance enhancements in counterfactual generation methods through a systematic exploration of their structural components and methodologies. Therefore, the contributions of this thesis including the utilization and introduction of novel methods in the field of counterfactual generation and a comprehensive analysis on the evaluation of counterfactual editors prove to be a promising avenue for future research.	en
heal.abstract	Eν μέσω της εκθετικής ανάπτυξης και των επιτευγμάτων στη μηχανική μάθηση (ML) καθώς και του βαθύτατου αντίκτυπού της σε κρίσιμους τομείς, η ανάγκη για ερμηνευσιμότητα των μοντέλων είναι υψίστης σημασίας. Μια γέφυρα για αυτό το χάσμα μοντέλου-ανθρώπου παρέχεται από την Εξηγήσιμη Τεχνητή Νοημοσύνη (Explainable AI - XAI), η οποία έχει σημειώσει ταχεία πρόοδο τα τελευταία χρόνια, προσθέτοντας διαφάνεια στις διαδικασίες μηχανικής μάθησης. Στην παρούσα εργασία, εστιάζουμε στις εξηγήσεις με αντιπαράδειγμα, μια μέθοδο που παρέχει γνώσεις σχετικά με τη διαδικασία λήψης αποφάσεων των μοντέλων μηχανικής μάθησης, διερευνώντας εναλλακτικά σενάρια και υποθετικούς μετασχηματισμούς. Συγκεκριμένα, ασχολούμαστε με τη δημιουργία εξηγήσεων με αντιπαράδειγμα σε κείμενο και την αξιολόγηση των συντακτών αντιπαραδειγμάτων, οι οποίοι αξιοποιούν τα μοντέλα και τις εργασίες στην επεξεργασία φυσικής γλώσσας (NLP) για τη δημιουργία παραλλαγών των προτάσεων κειμένου. Η προσέγγισή μας περιλαμβάνει τον πειραματισμό με πολλαπλούς συντάκτες αντιπαραδειγμάτων από την πρόσφατη βιβλιογραφία, μοντέλα αλλά και μεθόδους παραγωγής, προκειμένου να κατανοήσουμε τους εσωτερικούς μηχανισμούς τους και να καταστήσουμε τις αποφάσεις τους κατανοητές. Για να το επιτύχουμε αυτό, παρουσιάζουμε ένα σύστημα επεξεργασίας αντιπαραδειγμάτων όπου παράγουμε αντιθετικές εξηγήσεις με αντιπαράδειγμα συνδυάζοντας τους συντάκτες αντιπαραδειγμάτων με έναν ταξινομητή και στη συνέχεια επιλέγοντας την ελάχιστη δυνατή επεξεργασία που αντιστρέφει την αρχική πρόβλεψη του ταξινομητή. Επιπλέον, αξιοποιούμε μεθόδους δημιουργίας αντιπαραδειγμάτων που χρησιμοποιούνται σε τρέχουσες ακαδημαϊκές δημοσιεύσεις και εισάγουμε μια νέα μέθοδο παραγωγής εξηγήσεων με αντιπαράδειγμα με τη χρήση ετικετών μέρους του λόγου ως περιορισμό στην παραγωγή τους. Εξετάζουμε επίσης πολλαπλές τεχνικές αξιολόγησης και μετρικές που μας επιτρέπουν να εξάγουμε πολύτιμα συμπεράσματα τα οποία καλύπτουν πολυάριθμες πτυχές της γέννησης εξηγήσεων με αντιπαράδειγμα. Συνοπτικά, τα πειράματά μας απέδωσαν πολύτιμα συμπεράσματα και γνώσεις. Καταφέρνουμε να αποκαλύψουμε κρυμμένα χαρακτηριστικά και μοτίβα των συντακτών αντιπαραδειγμάτων, να εξηγήσουμε τα αποτελέσματά τους και να διερευνήσουμε διάφορες πτυχές της δημιουργίας αντιπαραδειγμάτων. Τα πειράματά μας αναδεικνύουν επίσης βελτιώσεις στην απόδοση των μεθόδων γέννησης αντιπαραδειγμάτων μέσω μιας συστηματικής διερεύνησης των δομικών συστατικών και μεθοδολογιών που χρησιμοποιούν. Ως εκ τούτου, οι συνεισφορές αυτής της διατριβής, συμπεριλαμβανομένης της αξιοποίησης και της παρουσίασης νέων μεθόδων στον τομέα της δημιουργίας εξηγήσεων με αντιπαράδειγμα και μίας ολοκληρωμένης ανάλυσης σχετικά με την αξιολόγηση των συντακτών αντιπαραδειγμάτων αποδεικνύεται ότι αποτελούν μια πολλά υποσχόμενη οδό για μελλοντική έρευνα.	el
heal.advisorName	Stamou, Georgios	en
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	150 σ.	el
heal.fullTextAvailability	false