Επεξηγήσιμη Τεχνητή Νοημοσύνη (XAI) μέσω SHAP σε
Deep Autoencoders για την Ανίχνευση Ονομάτων DGA

Arkadopoulou, Eleftheria; Αρκαδοπούλου, Ελευθερία

dc.contributor.author	Arkadopoulou, Eleftheria	en
dc.contributor.author	Αρκαδοπούλου, Ελευθερία	el
dc.date.accessioned	2025-09-02T06:44:35Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/62262
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.29958
dc.rights	Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/gr/	*
dc.subject	Επιθέσεις botnet	el
dc.subject	Domain Generation Algorithms (DGAs)	en
dc.subject	Μη Επιβλεπόμενη Μάθηση	el
dc.subject	Autoencoders	en
dc.subject	Επεξηγήσιμη Τεχνητή Νοημοσύνη (XAI)	el
dc.subject	Botnet attacks	en
dc.subject	Unsupervised Learning	en
dc.subject	Autoencoders	en
dc.subject	eXplainable Artificial Intelligence (XAI)	en
dc.title	Επεξηγήσιμη Τεχνητή Νοημοσύνη (XAI) μέσω SHAP σε Deep Autoencoders για την Ανίχνευση Ονομάτων DGA	el
dc.title	eXplainable Artificial Intelligence (XAI) SHAP Interpretations of Deep Autoencoders for DGA Domain Name Detection	en
heal.type	bachelorThesis
heal.classification	Δίκτυα Υπολογιστών	el
heal.classification	Computer Networks	en
heal.dateAvailable	2026-09-01T21:00:00Z
heal.language	en
heal.access	embargo
heal.recordProvider	ntua	el
heal.publicationDate	2025-02-27
heal.abstract	Η πλειοψηφία των προσφάτων υλοποιήσεων botnets κάνει χρήση Domain Generation Algorithms (DGAs) για την εδραίωση της επικοινωνίας μεταξύ των συσκευών (bots) του botnet και των ενορχηστρωτών των επιθέσεων τους (botmasters). Οι DGAs αξιοποιούν μηνύ- ματα του Domain Name System (DNS) για να εντοπίσουν κεκαλυμμένα τις διευθύνσεις των Command and Control (C&C) servers, μέσω της συνεχούς υποβολής DNS ερωτη- μάτων για μία σειρά ονομάτων από domains που χρησιμοποιούνται ως ραντεβού με τους C&C servers. Η μεθοδολογία μας κάνει χρήση Μηχανικής Μάθησης (ML) -συγκεκριμένα deep autoencoders- για να ξεχωρίσει τα έγκυρα domain ονόματα από αυτά που παράγονται από DGAs: ο στόχος μας είναι να εντοπίσουμε με ακρίβεια τα DGA ονόματα όσο αυτά περνούν μέσα από την DNS κίνηση, επιτρέποντας έτσι την αποτελεσματική διακοπή της επικοινωνίας των botnets. Οι μη επιβλεπόμενοι deep autoencoders μας εκπαιδεύονται σε μεγάλα, χωρίς ετικέτες (unlabelled), δημοσίως διαθέσιμα σύνολα δεδομένων που περιλ- αμβάνουν ονόματα για τα οποία υποβάλλονται συχνά DNS ερωτήματα, και χρησιμοποιούν χαρακτηριστικά που πηγάζουν εξ ολοκλήρου από τις λεξιλογικές και δομικές ιδιότητες των ονομάτων· τοιουτοτρόπως, αποφεύγουμε τις δαπανηρές, αναξιόπιστες διαδικασίες που περ- ιλαμβάνει το labelling και τις παρεμβατικές στην ιδιωτικότητα επιχειρήσεις που περιλαμ- βάνει η χρήση δεδομένων DNS αντίστοιχα. Κατόπιν της εκπαίδευσης και της δοκιμής των μοντέλων, το σχήμα που προτείνουμε ερμηνεύει τα μοντέλα "μαύρα κουτιά" αξιοποιώντας την model-agnostic τεχνική Επεξγήσιμης Τεχνητής Νοημοσύνης (XAI) SHapley Additive exPlanations (SHAP) προκειμένου να εξάγει τη συνεισφορά των χαρακτηριστικών εισό- δου στην λήψη αποφάσεων και την έξοδο του μοντέλου. Μέσω περαιτέρω πειραμάτων με ποικίλες οικογένειες DGA, είμαστε σε θέση να αυξήσουμε την κατανόηση γύρω από την επί- δραση των διαφορετικών χαρακτηριστικών στην ανίχνευση DGA ονομάτων από διαφορετικά σχήματα παραγωγής. Οραματιζόμαστε ότι η μη επιβλεπόμενη μάθηση και οι τεχνικές Επεξ- ηγήσιμης Τεχνητής Νοημοσύνης θα επισπεύσουν την υιοθέτηση της Μηχανικής Μάθησης	el
heal.abstract	The majority of recent botnet implementations rely on Domain Generations Algorithms (DGAs) to establish communication between the bots of the botnet and their attack orchestrators (botmasters). DGAs exploit Domain Name System (DNS) messages to covertly locate the Command and Control (C&C) server address by continuously querying a series of domain names that serve as rendezvous points with the servers. Our methodology employs Machine Learning (ML) -specifically deep autoencoders- to differentiate between domain names generated through DGAs and legitimate ones: our objective is to accurately identify DGA-generated domain names as they traverse through DNS traffic, thereby enabling the effective disruption of botnet communications. Our unsupervised deep autoencoders are trained on large, unlabelled, publicly available datasets involving frequently requested names, and utilise features deriving solely from linguistic and structural properties of domain names; we thus avoid costly, unreliable labelling operations and privacy-intrusive DNS data procedures respectively. Post model training and testing, our proposed schema interprets black-box models by employing the model-agnostic SHapley Additive exPlanations (SHAP) eXplainable Artificial Intelligence (XAI) method to extract feature contribution to the model’s decision-making and output. By further experimenting with various DGA families, we are able to enhance comprehension of the effect different features have on the detection of DGA names pertaining to different generation schemes. We envision that unsupervised learning and XAI techniques will expedite	en
heal.advisorName	Παπαβασιλείου, Συμεών	el
heal.advisorName	Papavassiliou, Symeon	en
heal.committeeMemberName	Παπαβασιλείου, Συμεών	el
heal.committeeMemberName	Μάγκλαρης, Βασίλειος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Papavassiliou, Symeon	en
heal.committeeMemberName	Maglaris, Vasileios	en
heal.committeeMemberName	Stamou, Georgios	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	81 σ.	el
heal.fullTextAvailability	false