HEAL DSpace

Χϱήση eXplainable Artificial Intelligence (XAI) για την επεξήγηση ταξινοµητών ανίχνευσης κίνησης από Domain Generation Algorithms (DGA)

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Φίλιππα, Μυρσίνη el
dc.contributor.author Filippa, Myrsini en
dc.date.accessioned 2025-01-10T08:23:39Z
dc.date.available 2025-01-10T08:23:39Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60688
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28384
dc.rights Default License
dc.subject Ασϕάλεια ∆ικτύων el
dc.subject Μηχανική Μάθηση el
dc.subject Επεξηγήσιμη Τεχνητή Νοημοσύνη el
dc.subject Αλγόριθμοι Παραγωγής Ονομάτων el
dc.subject Δέντρα Αποφάσεων el
dc.subject Cybersecurity en
dc.subject Machine Learning en
dc.subject Domain Generation Algorithms (DGA) en
dc.subject eXplainable Artificial Intelligence (XAI) en
dc.subject Decision Trees en
dc.title Χϱήση eXplainable Artificial Intelligence (XAI) για την επεξήγηση ταξινοµητών ανίχνευσης κίνησης από Domain Generation Algorithms (DGA) el
heal.type bachelorThesis
heal.classification eXplainable Artifficial Intelligence - XAI en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-18
heal.abstract Τα τελευταία χϱόνια οι κυβερνοεπιθέσεις έχουν σηµειώσει ϱαγδαία αύξηση και γίνονται ολοένα πιο ισχυρές και σύνθετες, µε τα botnets να αποτελούν τη ϐάση της πλειοψηφίας αυτών. Οι σύγχρονες υλοποιήσεις botnets ϐασίζονται στους Αλγορίθµους Παραγωγής Ονοµάτων (Domain Generation Algorithms - DGAs) για την απόκρυψη της ταυτότητας των Command & Control (C&C) servers µε σκοπό να γίνει δυσκολότερη η εξάρθρωση τους. Τα bots και οι C&C servers εκτελούν περιοδικά τον αλγόριθµο µε ένα κοινό seed γνωστό µόνο σε αυτούς και δηµιουργούν ένα σύνολο ονοµάτων εκ των οποίων µικρό υποσύνολο εκχωρείται στις διευθύνσεις ΙΡ των C&C servers µέσω του Domain Name System - DNS. Τα bots εκτελούν DNS queries µέχϱι να λάβουν ως απάντηση µία διεύθυνση ΙΡ για κάποιο από τα καταχωρηµένα ονόµατα και να εδραιώσουν επικοινωνία µε κάποιον C&C server. Η περιοδική αλλαγή των ονοµάτων που εκχωρούνται στους C&C servers καθιστά τον εντοπισµό τους από παραδοσιακά συστήµατα ασφαλείας, όπως το blacklisting αναποτελεσµατικά, καθώς µετά από ένα µικρό χρονικό διάστηµα τα ονόµατα αυτά αποσύρονται και δεν επαναχρησιµοποιούνται. Οι υλοποιήσεις µε µεθόδους Μηχανικής Μάθησης (Machine Learning) για τον εντοπισµό τέτοιων ονοµάτων αποτελούν, πλέον, µία από τις δηµοφιλέστερες προσεγγίσεις καθώς προσφέρουν καλή απόδοση και ανίχνευση σε πραγµατικό χϱόνο, οι οποίες όµως παϱαµένουν µη ερµηνεύσιµες (δεν κατανοούµε τον τϱόπο µε τον οποίο παίρνουν αποφάσεις), µε αποτέλεσµα να αντιµετωπίζονται µε επιφυλακτικότητα από τους διαχειριστές δικτύων. Στην παρούσα διπλωµατική εργασία, παρουσιάζουµε δύο Random Forest ταξινοµητές, έναν δύο κλάσεων binary, που κατηγοριοποιεί τα ονόµατα σε καλόβουλα και κακόβουλα (παϱαγόµενα από DGA) και έναν πολλών κλάσεων multiclass, που κατηγοριοποιεί τα ονόµατα σε καλόβουλα και 54 διαφορετικές οικογένειες DGA. Για την εκπαίδευση και αξιολόγηση των ταξινοµητών χρησιµοποιήσαµε δηµοφιλή σύνολα δεδοµένων, συγκεκριµένα τα καλόβουλα ονόµατα επιλέχθηκαν από τη λίστα Tranco, ενώ τα κακόβουλα από το DGArchive. Χρησιµοποιήσαµε µεθόδους eXplainable Artificial Intelligence (XAI) για την αποτίµηση της επίδρασης των χαρακτηριστικών (features) στις αποφάσεις των δύο ταξινοµητών. Για το σκοπό αυτό, χρησιµοποιήσαµε τις οπτικοποιήσεις που προσφέρει η ΧΑΙ µέθοδος SHapley Additive exPlanations (SHAP). Επιπλέον, µε αφορµή τη πληροφορία για τη διάρκεια Ϲωής των ονοµάτων που παρέχει το DGAchive, εκτιµήσαµε πως µεταβάλλεται η απόδοση των δύο ταξινοµητών µε την εµφάνιση νέων οικογενειών DGA και κακόβουλων ονοµάτων µε τη πάροδο του χϱόνου (το χρονικό διάστηµα για το οποίο είχαµε δεδοµένα είναι τα έτη 2010 έως 2019), εκπαιδεύοντας τους δύο ταξινοµητές µε ονόµατα του έτους 2010 και κατόπιν αξιολογώντας το µε δεδοµένα των ακόλουθων ετών (2011-2019). Στόχος µας, ήταν η σύγκριση των δύο ταξινοµητών ως πϱος την απόδοση και τις ερµηνείες τους. el
heal.abstract In recent years, cyberattacks have significantly increased and become progressively more powerful and complex, with botnets forming the foundation of the majority of these attacks. Modern botnet implementations rely on Domain Generation Algorithms (DGAs) to hide the identities of Command & Control (C&C) servers, making them harder to detect. Both bots and C&C servers periodically run the algorithm with a shared seed known only to them, generating a set of names from which a small subset is assigned to the IP addresses of C&C servers via the Domain Name System (DNS). The bots execute DNS queries until they receive an IP address for one of the registered names and establish communication with a C&C server. The periodic change of names assigned to C&C servers renders traditional security systems like blacklisting ineffective, as these names are withdrawn after a short period and not reused. Machine Learning (ML) implementations for detecting such names have become one of the most popular approaches as they have good performance and also offer real-time detection, though they remain uninterpretable (the way they make decisions is not understood), leading to skepticism from network administrators. In this thesis, we present two Random Forest classifiers, a binary classifier that categorizes domain names as benign or malicious (DGA-generated), and a multiclass classifier that categorizes domain names as benign or into 54 different DGA families. For training and evaluating the classifiers, we used popular datasets, specifically benign names were selected from the Tranco list and malicious names from DGArchive. We employed Explainable Artificial Intelligence (XAI) methods to assess the impact of features on the decisions of the two classifiers. To this end, we used visualizations provided by the SHapley Additive exPlanations (SHAP) XAI method. Additionally, leveraging the information about the lifespan of the domain names provided by DGArchive, we estimated how the performance of the two classifiers changes with the emergence of new DGA families and malicious names over time (the time period for which we had data is the years 2010 to 2019). We trained the two classifiers with names from the year 2010 and then evaluated them with data from the following years (2011-2019). Our goal was to compare the performance and interpretability of the two classifiers en
heal.advisorName Παπαβασιλείου, Συμεών el
heal.committeeMemberName Παπαβασιλείου, Συμεών el
heal.committeeMemberName Στάη, Ελένη el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής el
heal.academicPublisherID ntua
heal.numberOfPages 84 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής