HEAL DSpace

Large language models for detection of adversarial attacks in text classification

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Kostas, Nikolaos en
dc.contributor.author Κώστας, Νικόλαος el
dc.date.accessioned 2025-04-02T07:03:50Z
dc.date.available 2025-04-02T07:03:50Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/61562
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29258
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Adversarial attacks en
dc.subject Detection en
dc.subject Text classification en
dc.subject Large language models en
dc.subject Natural language processing en
dc.subject Ανταγωνιστικές επιθέσεις el
dc.subject Ανίχνευση el
dc.subject Ταξινόμηση κειμένου el
dc.subject Μεγάλα γλωσσικά μοντέλα el
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.title Large language models for detection of adversarial attacks in text classification en
dc.title Μεγάλα γλωσσικά μοντέλα για την ανίχνευση ανταγωνιστικών επιθέσεων στην ταξινόμηση κειμένου el
heal.type bachelorThesis
heal.classification Artificial intelligence en
heal.classification Τεχνητή νοημοσύνη el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-11-01
heal.abstract Adversarial attacks in natural language processing (NLP) pose a critical threat to the integrity of text classification models. By generating subtle perturbations in input data, they can significantly impair model performance, misleading them into making incorrect predictions, all while not affecting human judgment. In this thesis, we investigate the applicability of Large Language Models (LLMs) as detectors of such adversarial attacks. To this end, we develop a prompt engineering framework with the goal of crafting natural language prompts that enable LLMs to effectively perform this task. We investigate the effects that each applied prompting technique has on model performance and draw conclusions about the models' potential competence at this task. After arriving at the best-performing prompt, we use it to evaluate the adversarial detection ability of multiple Large Language Models across different combinations of text classification datasets, adversarial attacks, and attacked models. In order to further evaluate this methods’ performance, we conduct a human evaluation and a sanity test for data contamination. In addition, we propose another approach for adversarial text detection which utilizes the attacked language model itself, by inspecting the classifications given to each individual sentence of a text and comparing them with the classification given to the entire text. After also evaluating this approach under multiple scenarios, we combine our two methods into a unified approach which is then compared to other state-of-the-art detection frameworks. Our experimental results show both the necessity of appropriate prompt engineering and the potential efficacy of LLM prompting in adversarial detection. Furthermore, its combination with the also effective, second proposed method, yields competitive results and establishes our approach as a viable solution for plug-and-play detection of textual adversarial samples. en
heal.abstract Οι ανταγωνιστικές επιθέσεις στην επεξεργασία φυσικής γλώσσας (NLP) αποτελούν κρίσιμη απειλή για την ακεραιότητα των μοντέλων ταξινόμησης κειμένου. Δημιουργώντας μικρές διαταραχές στα δεδομένα εισόδου, μπορούν να υποβαθμίσουν σημαντικά την απόδοση των μοντέλων, παραπλανώντας τα ώστε να κάνουν εσφαλμένες προβλέψεις, ενώ παράλληλα δεν επηρεάζουν την ανθρώπινη κρίση. Στην παρούσα διατριβή, διερευνούμε τη δυνατότητα εφαρμογής των μεγάλων γλωσσικών μοντέλων (LLMs) ως ανιχνευτές τέτοιων ανταγωνιστικών επιθέσεων. Για το σκοπό αυτό, αναπτύσσουμε ένα πλαίσιο μηχανικής προτροπών με στόχο τη δημιουργία προτροπών φυσικής γλώσσας που επιτρέπουν στα LLM να επιτελέσουν αποτελεσματικά αυτό το έργο. Διερευνούμε τις επιδράσεις που έχει κάθε εφαρμοζόμενη τεχνική προτροπής στην απόδοση των μοντέλων και εξάγουμε συμπεράσματα σχετικά με τη δυνητική επάρκεια των μοντέλων σε αυτή την εφαρμογή. Αφού καταλήξουμε στην προτροπή με τις καλύτερες επιδόσεις, τη χρησιμοποιούμε για να αξιολογήσουμε την ικανότητα ανίχνευσης επιθέσεων από πολλαπλά Μεγάλα Γλωσσικά Μοντέλα σε διαφορετικούς συνδυασμούς συνόλων δεδομένων ταξινόμησης κειμένου, ανταγωνιστικών επιθέσεων και μοντέλων-θυμάτων. Προκειμένου να αξιολογήσουμε περαιτέρω τις επιδόσεις αυτών των μεθόδων, διεξάγουμε μια ανθρώπινη αξιολόγηση και μια έναν έλεγχο ορθότητας για τυχόν μόλυνση των δεδομένων. Επιπλέον, προτείνουμε μια άλλη προσέγγιση για την ανίχνευση ανταγωνιστικών κειμένων, η οποία χρησιμοποιεί το ίδιο το υπό επίθεση γλωσσικό μοντέλο, επιθεωρώντας τις ταξινομήσεις που δίνονται σε κάθε μεμονωμένη πρόταση ενός κειμένου και συγκρίνοντάς τες με την ταξινόμηση που δίνεται σε ολόκληρο το κείμενο. Αφού αξιολογήσουμε επίσης αυτή την προσέγγιση υπό πολλαπλά σενάρια, συνδυάζουμε τις δύο μεθόδους μας σε μια ενοποιημένη προσέγγιση, η οποία στη συνέχεια συγκρίνεται με άλλα σύγχρονα πλαίσια ανίχνευσης. Τα πειραματικά μας αποτελέσματα δείχνουν τόσο την αναγκαιότητα για κατάλληλη μηχανική προτροπής όσο και τη δυνητική αποτελεσματικότητα της προτροπής LLM στην ανταγωνιστική ανίχνευση. Επιπλέον, ο συνδυασμός της με την επίσης αποτελεσματική, δεύτερη προτεινόμενη μέθοδο, αποδίδει ανταγωνιστικά αποτελέσματα και καθιερώνει την προσέγγισή μας ως μια λύση για την plug-and-play ανίχνευση ανταγωνιστικών κειμενικών δειγμάτων. el
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα