HEAL DSpace

Exploring text counterfactual explanations: a multi-metric evaluation approach for counterfactual editors

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Karavangelis, Athanasios en
dc.contributor.author Καραβαγγέλης, Αθανάσιος el
dc.date.accessioned 2023-09-07T09:02:21Z
dc.date.available 2023-09-07T09:02:21Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58035
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25732
dc.rights Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nd/3.0/gr/ *
dc.subject Εξηγήσιμη Τεχνητή Νοημοσύνη el
dc.subject Εξηγήσεις με Αντιπαράδειγμα el
dc.subject Αντιφατικά Κείμενα el
dc.subject Μοντέλα Μηχανικής Μάθησης el
dc.subject Παραγωγή Κειμένου el
dc.subject Explainable AI en
dc.subject Counterfactual Explanations en
dc.subject Text Counterfactuals en
dc.subject Machine Learning Models en
dc.subject Text Generation en
dc.title Exploring text counterfactual explanations: a multi-metric evaluation approach for counterfactual editors en
heal.type bachelorThesis
heal.classification Τεχνητή Νοημοσύνη el
heal.classification Artificial Intelligence en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-07-03
heal.abstract Amidst the exponential growth and breakthroughs in machine learning (ML) and its profound impact on critical domains, the need for interpretability of the models is paramount. A bridge for this model-human gap is provided by Explainable AI (XAI), which has seen rapid progress in recent years, adding transparency to machine learning processes. In this work, we focus on counterfactual explanations, a method that provides insights into the decision-making process of machine learning models by exploring alternative scenarios and hypothetical transformations. Specifically, we are concerned with the generation of text counterfactual explanations and the evaluation of counterfactual editors, which leverage natural language processing (NLP) models and tasks to generate perturbations of text sentences. Our approach involves experimenting with multiple counterfactual editors from the recent literature, models, and generation methods in order to understand their inner mechanisms and make their decisions comprehensive. In order to achieve this, we present a counterfactual editing system where we generate counterfactual, contrastive edits combining counterfactual editors with a predictor and then selecting the most minimal edit that flips the predictor’s original prediction. Moreover, we utilize methods of counterfactual generation used in current academic publications and introduce a novel method of generating counterfactual edits using part-of-speech tags to constrain the generation. We also explore multiple evaluation techniques and metrics that allow us to extract valuable conclusions that cover numerous aspects of counterfactual generation. In summary, our experiments have yielded valuable conclusions and insights. We manage to unveil hidden characteristics and patterns of counterfactual editors, explain their results, and explore various aspects of counterfactual generation. Our experiments showcase performance enhancements in counterfactual generation methods through a systematic exploration of their structural components and methodologies. Therefore, the contributions of this thesis including the utilization and introduction of novel methods in the field of counterfactual generation and a comprehensive analysis on the evaluation of counterfactual editors prove to be a promising avenue for future research. en
heal.abstract Eν μέσω της εκθετικής ανάπτυξης και των επιτευγμάτων στη μηχανική μάθηση (ML) καθώς και του βαθύτατου αντίκτυπού της σε κρίσιμους τομείς, η ανάγκη για ερμηνευσιμότητα των μοντέλων είναι υψίστης σημασίας. Μια γέφυρα για αυτό το χάσμα μοντέλου-ανθρώπου παρέχεται από την Εξηγήσιμη Τεχνητή Νοημοσύνη (Explainable AI - XAI), η οποία έχει σημειώσει ταχεία πρόοδο τα τελευταία χρόνια, προσθέτοντας διαφάνεια στις διαδικασίες μηχανικής μάθησης. Στην παρούσα εργασία, εστιάζουμε στις εξηγήσεις με αντιπαράδειγμα, μια μέθοδο που παρέχει γνώσεις σχετικά με τη διαδικασία λήψης αποφάσεων των μοντέλων μηχανικής μάθησης, διερευνώντας εναλλακτικά σενάρια και υποθετικούς μετασχηματισμούς. Συγκεκριμένα, ασχολούμαστε με τη δημιουργία εξηγήσεων με αντιπαράδειγμα σε κείμενο και την αξιολόγηση των συντακτών αντιπαραδειγμάτων, οι οποίοι αξιοποιούν τα μοντέλα και τις εργασίες στην επεξεργασία φυσικής γλώσσας (NLP) για τη δημιουργία παραλλαγών των προτάσεων κειμένου. Η προσέγγισή μας περιλαμβάνει τον πειραματισμό με πολλαπλούς συντάκτες αντιπαραδειγμάτων από την πρόσφατη βιβλιογραφία, μοντέλα αλλά και μεθόδους παραγωγής, προκειμένου να κατανοήσουμε τους εσωτερικούς μηχανισμούς τους και να καταστήσουμε τις αποφάσεις τους κατανοητές. Για να το επιτύχουμε αυτό, παρουσιάζουμε ένα σύστημα επεξεργασίας αντιπαραδειγμάτων όπου παράγουμε αντιθετικές εξηγήσεις με αντιπαράδειγμα συνδυάζοντας τους συντάκτες αντιπαραδειγμάτων με έναν ταξινομητή και στη συνέχεια επιλέγοντας την ελάχιστη δυνατή επεξεργασία που αντιστρέφει την αρχική πρόβλεψη του ταξινομητή. Επιπλέον, αξιοποιούμε μεθόδους δημιουργίας αντιπαραδειγμάτων που χρησιμοποιούνται σε τρέχουσες ακαδημαϊκές δημοσιεύσεις και εισάγουμε μια νέα μέθοδο παραγωγής εξηγήσεων με αντιπαράδειγμα με τη χρήση ετικετών μέρους του λόγου ως περιορισμό στην παραγωγή τους. Εξετάζουμε επίσης πολλαπλές τεχνικές αξιολόγησης και μετρικές που μας επιτρέπουν να εξάγουμε πολύτιμα συμπεράσματα τα οποία καλύπτουν πολυάριθμες πτυχές της γέννησης εξηγήσεων με αντιπαράδειγμα. Συνοπτικά, τα πειράματά μας απέδωσαν πολύτιμα συμπεράσματα και γνώσεις. Καταφέρνουμε να αποκαλύψουμε κρυμμένα χαρακτηριστικά και μοτίβα των συντακτών αντιπαραδειγμάτων, να εξηγήσουμε τα αποτελέσματά τους και να διερευνήσουμε διάφορες πτυχές της δημιουργίας αντιπαραδειγμάτων. Τα πειράματά μας αναδεικνύουν επίσης βελτιώσεις στην απόδοση των μεθόδων γέννησης αντιπαραδειγμάτων μέσω μιας συστηματικής διερεύνησης των δομικών συστατικών και μεθοδολογιών που χρησιμοποιούν. Ως εκ τούτου, οι συνεισφορές αυτής της διατριβής, συμπεριλαμβανομένης της αξιοποίησης και της παρουσίασης νέων μεθόδων στον τομέα της δημιουργίας εξηγήσεων με αντιπαράδειγμα και μίας ολοκληρωμένης ανάλυσης σχετικά με την αξιολόγηση των συντακτών αντιπαραδειγμάτων αποδεικνύεται ότι αποτελούν μια πολλά υποσχόμενη οδό για μελλοντική έρευνα. el
heal.advisorName Stamou, Georgios en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 150 σ. el
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα