HEAL DSpace

Adversarial attacks on the natural language inference task

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κουλάκος, Αλέξανδρος el
dc.contributor.author Koulakos, Alexandros en
dc.date.accessioned 2025-01-16T11:45:41Z
dc.date.available 2025-01-16T11:45:41Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60774
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28470
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Εξηγήσεις σε φυσική γλώσσα el
dc.subject Ανταγωνιστικές επιθέσεις el
dc.subject Μετασχηματιστές el
dc.subject Natural language processing en
dc.subject Natural language explanations en
dc.subject Natural language inference en
dc.subject Adversarial attacks en
dc.subject Transformers en
dc.subject Συμπερασμός φυσικής γλώσσας el
dc.title Adversarial attacks on the natural language inference task en
dc.title Ανταγωνιστικές επιθέσεις για το πρόβλημα του συμπερασμού φυσικής γλώσσας el
heal.type bachelorThesis
heal.secondaryTitle Χρησιμοποιώντας τις επεξηγήσεις σε φυσική γλώσσα για την ενίσχυση της ανθεκτικότητας απέναντι σε ανταγωνιστικές επιθέσεις el
heal.secondaryTitle Using natural language explanations to enhance adversarial robustness en
heal.classification Τεχνητή Νοημοσύνη el
heal.classification Μηχανική Μάθηση el
heal.classification Νευρωνικά Δίκτυα el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-16
heal.abstract Τα Νευρωνικά Δίκτυα Βαθιάς μάθησης έχουν καταφέρει τα τελευταία χρόνια να αντιμετωπίσουν με επιτυχία διάφορα προβλήματα που εντάσσονται στην Επεξεργασία Φυσικής Γλώσσας (π.χ. ταξινόμηση κειμένου, σύνοψη, μετάφραση, συμπερασμός φυσικής γλώσσας). Ωστόσο, ειδικά στο πρόβλημα του συμπερασμού φυσικής γλώσσας, έχει αποδειχθεί ότι τα σύγχρονα μοντέλα βαθιάς μάθησης, τα οποία εκπαιδεύονται στο σύνολο δεδομένων SNLI, είναι ευάλωτα σε ανταγωνιστικές επιθέσεις, οι οποίες αποσκοπούν στην εξαπάτηση του μοντέλου με την προσθήκη ανεπαίσθητων διαταραχών σε αυθεντικές εισόδους. Για την αντιμετώπιση αυτού του ζητήματος έχει προταθεί η μέθοδος της ανταγωνιστικής εκπαίδευσης, αλλά αποτυγχάνει να απομακρύνει τη μεροληψία, που υπάρχει εγγενώς στο σύνολο δεδομένων SNLI, από τη διαδικασία πρόβλεψης του μοντέλου. Με βάση την εργασία των Camburu et al., προτείνουμε την τροποποίηση του παραδοσιακού προβλήματος συμπερασμού φυσικής γλώσσας με την ενσωμάτωση εξηγήσεων φυσικής γλώσσας κατά τη διάρκεια της εκπαίδευσης και της εξαγωγής συμπερασμάτων και διεξάγουμε μια σειρά πειραμάτων προκειμένου να επαληθεύσουμε κατά πόσο οι εξηγήσεις φυσικής γλώσσας βελτιώνουν πράγματι την ανθεκτικότητα των μοντέλων. Χρησιμοποιούμε το TextFooler και το BERT-attack ως αλγορίθμους παραγωγής ανταγωνιστικών επιθέσεων και τα πειραματικά αποτελέσματα δείχνουν σταθερά ότι η ενσωμάτωση εξηγήσεων φυσικής γλώσσας στη διαδικασία εκπαίδευσης και εξαγωγής συμπερασμάτων ενισχύει την ανθεκτικότητα απέναντι σε ανταγωνιστικές επιθέσεις. el
heal.abstract DNNs have achieved remarkable success in various Natural Language Processing tasks (e.g., text classification, summarization, machine translation, natural language inference). However, especially in the natural language inference task, it has been shown that state-of-the-art DNN-based models, trained on SNLI dataset, are susceptible to adversarial attacks, which aim to fool the model by adding imperceptible perturbations into legitimate inputs. Adversarial training has been proposed in order to address this issue, but it fails in masking out the SNLI dataset bias from the model's decision-making process. Based on the work of Camburu et al., we propose the modification of the traditional natural language inference task by incorporating natural language explanations during training and inference and we conduct a range of experiments in order to verify whether natural language explanations actually improve adversarial robustness. We use TextFooler and BERT-attack as attack recipes and the experimental results consistently show that incorporating natural language explanations in training and inference process enhances robustness against adversarial attacks. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 113 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα