dc.contributor.author | Δημήτριος, Μπεκρής![]() |
el |
dc.contributor.author | Dimitrios, Bekris![]() |
en |
dc.date.accessioned | 2025-03-05T08:27:57Z | |
dc.date.available | 2025-03-05T08:27:57Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/61197 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.28893 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Interpretability | en |
dc.subject | Puning | en |
dc.subject | Explainability | en |
dc.subject | Optimization | en |
dc.subject | Transformers | en |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | Βελτιστοποίηση | el |
dc.subject | Επεξηγησιμότητα | el |
dc.subject | Περικοπή κεφαλών | el |
dc.title | Integrated gradients for structured pruning in BERT | en |
heal.type | bachelorThesis | |
heal.classification | Computer Science | en |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-09-13 | |
heal.abstract | Τα μοντέλα Transformer έχουν φέρει επανάσταση στον τομέα της Επεξεργασίας Φυσικής Γλώσσας (NLP), ιδιαίτερα σε εργασίες όπως η ταξινόμηση κειμένου. Αυτά τα μοντέλα βασί ζονται σε μεγάλο βαθμό στους μηχανισμούς προσοχής, που επιτρέπουν στο μοντέλο να εσ τιάζει σε διάφορα σημεία της εισόδου, βελτιώνοντας την κατανόηση του πλαισίου. Ωστόσο, υπάρχει μια συνεχιζόμενη συζήτηση σχετικά με το αν οι μηχανισμοί προσοχής μπορούν να θεωρηθούν αξιόπιστες εξηγήσεις για τις αποφάσεις του μοντέλου, όπως επισημαίνεται στη διαμάχη "Attention is not Explanation". Αυτή η διπλωματική εργασία εξετάζει τη δομημένη κλάδευση των κεφαλών προσοχής ως μέθοδο βελτιστοποίησης των μοντέλων Transformer, όπως το BERT, σε εργασίες ταξινόμησης του GLUE benchmark, μειώνοντας την πολυ πλοκότητα του μοντέλου ενώ διατηρείται η απόδοση και η ερμηνευσιμότητα. Το κίνητρο για αυτή την έρευνα πηγάζει από τη διαμάχη για τη δυνατότητα εξήγησης των μηχανισμών προσοχής. Εισάγεται ένας νέος δείκτης βασισμένος στη συσχέτιση που αξιοποιεί τη σχέση μεταξύ των τιμών προσοχής και των αποδόσεων, με στόχο την ταυτοποίηση των πιο σημαντικών κεφαλών προσοχής. Η προτεινόμενη μέθοδος βασίζεται στη Θεωρία του Τυχερού Δελτίου (Lottery Ticket Hypothesis) και δοκιμάζει τον αλγόριθμο Iterative Structured Pruning, ο οποίος προτάθηκε από τον Αχλατή. Αυτή η προσέγγιση στοχεύει να αξιολογήσει αν οι κεφαλές προσοχής που κλαδεύονται με βάση αυτόν τον δείκτη μπορούν να διατηρήσουν την απόδοση και την εξηγητική αξία του μοντέλου. Η μέθοδος εφαρμόστηκε στο BERT και διεξήχθησαν εκτεταμένα πειράματα σε διάφορες εργασίες ταξινόμησης του GLUE Benchmark. Τα αποτελέσματα δείχνουν ότι η απόδοση είναι συγκρίσιμη με τη δουλειά του Αχλατή, με την προτεινόμενη προσέγγιση να επιτυγχάνει ανταγωνιστικά αποτελέσματα όσον αφορά την ακρίβεια και την αποδοτικότητα του μοντέλου. Οι συνεισφορές αυτής της έρευνας εντοπίζονται τόσο στον τομέα του Structured Pruning όσο και στη συνεχιζόμενη συζήτηση για το αν οι μηχανισμοί προσοχής μπορούν να λειτουργή σουν ως εξηγήσεις. Με την ανάπτυξη και αξιολόγηση αυτής της μεθόδου, συμβάλλουμε στη βελτιστοποίηση των μοντέλων και προσφέρουμε νέες προοπτικές για την κατανόηση και αξ ιοποίηση των μηχανισμών προσοχής σε εργασίες NLP. | el |
heal.abstract | Transformer models have revolutionized the field of Natural Language Processing (NLP), particularly in tasks like text classification. These models rely heavily on attention mech anisms to focus on different parts of the input, enhancing contextual understanding. How ever, there has been a growing debate on whether attention mechanisms can be considered reliable explanations for model decisions, as highlighted in the "Attention is not Explana tion" debate. This thesis investigates structured pruning of attention heads as a method to optimize Transformer models like BERT for classification tasks in the GLUE benchmark, reducing model complexity while preserving performance and interpretability. Motivated by the debate on the explanatory power of attention mechanisms, this re search introduces a novel correlation-based metric that leverages the relationship between attention scores and attributions to identify the most important attention heads. The pro posed method builds on the Lottery Ticket Hypothesis and tests the Iterative Structured Pruning algorithm, first introduced by Achlatis. This approach aims to assess whether attention heads that are pruned using this correlation-based metric can still maintain the model’s performance and explanatory value. The method was applied to BERT, and extensive experiments were conducted on var ious GLUE benchmark classification tasks. The results demonstrate that the performance is comparable to the work of Achlatis, with the proposed approach achieving competitive results in terms of both accuracy and model efficiency. The contributions of this research lie in the Structured Pruning field as well as in the ongoing debate about whether attention can serve as an explanation. By developing and evaluating this method, we contribute to model optimization and offer new insights into how attention mechanisms can be understood and utilized in NLP tasks. | en |
heal.advisorName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Ροντογιάννης, Αθανάσιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 153 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: