Χρήση eXplainable Artificial Intelligence (XAI) για την επεξήγηση μοντέλων ανίχνευσης κίνησης από Domain Generation Algorithms (DGA)

Μιχαηλίδης, Μάριος; Michailidis, Marios

dc.contributor.author	Μιχαηλίδης, Μάριος	el
dc.contributor.author	Michailidis, Marios	en
dc.date.accessioned	2023-05-10T10:37:57Z
dc.date.available	2023-05-10T10:37:57Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/57669
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25366
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Default License
dc.subject	Botnet	en
dc.subject	Domain Generation Algorithms (DGA)	en
dc.subject	Βαθιά Μηχανική Μάθηση	el
dc.subject	SHAP	en
dc.subject	eXplainable AI (XAI)	en
dc.title	Χρήση eXplainable Artificial Intelligence (XAI) για την επεξήγηση μοντέλων ανίχνευσης κίνησης από Domain Generation Algorithms (DGA)	el
heal.type	masterThesis
heal.classification	Μηχανική Μάθηση	el
heal.classification	Explainable Artificial Intelligence	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-03-28
heal.abstract	Στόχος της παρούσας διπλωματικής είναι η μελέτη και η υλοποίηση αλγορίθμων επεξήγησης Τεχνητής Νοημοσύνης (eXplainable AI – XAI) για την ανίχνευση κακόβουλων ονομάτων που παράγονται από Domain Generation Algorithms με σκοπό την παραπλάνηση των administrators του Domain Name System (DNS) σε επιθέσεις από botnets. Το μεγαλύτερο ποσοστό των botnets χρησιμοποιούν Domain Generation Algorithms, για να αποκρύπτουν την ταυτότητα τους μέσω της περιοδικής εκτέλεσης των DGAs και συνεπώς την περιοδική αλλαγή του Domain Name που εκχωρείται στον C&C server. Ο κύριος στόχος αυτών των αλγορίθμων είναι η παραγωγή ενός μεγάλου ψευδοτυχαίου συνόλου ονομάτων τομέα και έπειτα η χρήση ενός υποσυνόλου αυτού για τον έλεγχο και την επικοινωνία μεταξύ του C&C server και των bots. Μ’ αυτόν τον τρόπο οι botmasters ενισχύουν την δομή του botnet και καθιστούν ιδιαίτερα απαιτητική την διαδικασία εντοπισμού του C&C και την αποκοπή του από τα bots καθώς το σύστημα λόγω των περιοδικών αλλαγών είναι ανθεκτικό σε παραδοσιακά συστήματα ασφαλείας όπως το blacklisting. Παρά το γεγονός πως οι μέθοδοι μηχανικής και βαθιάς μάθησης γίνονται ολοένα και πιο δημοφιλείς στην αντιμετώπιση αυτού του προβλήματος και παρουσιάζουν εξαιρετικά αποτελέσματα όσον αφορά την ακρίβεια, εντούτοις παραμένουν «un-interpretable» (μη επεξηγήσιμες) και δύσκολες για τους ερευνητές να κατανοήσουν πως προκύπτουν οι αποφάσεις και οι προβλέψεις τους. Στοχεύοντας στην επίλυση του παραπάνω προβλήματος, παρουσιάζουμε διάφορα μοντέλα μηχανικής μάθησης, δίνοντας έμφαση σε ταξινομητές βαθιάς μηχανικής μάθησης (Multilayer Perceptron - MLP, Long Short-Term Memory) ώστε να επεξηγήσουμε και να ερμηνεύσουμε τα χαρακτηριστικά που καθόρισαν την κατηγοριοποίηση των ονομάτων τομέα σε πραγματικά ή κακόβουλα. Η μελέτη μας ακολουθεί δύο διακριτές μεθοδολογίες αξιοποίησης της πληροφορίας του δείγματος μας. Στην πρώτη, εξαγάγαμε στατιστικά χαρακτηριστικά για τα domain names, όπως το μέγεθος του ονόματος κ.ά. και χρησιμοποιήσαμε Δέντρα Αποφάσεων (ακρίβεια 93%) για την ανάλυση του προβλήματος, καθώς τα αποτελέσματα τους θεωρητικά είναι intrinsically-explainable. Με τα ίδια χαρακτηριστικά, εκπαιδεύσαμε ένα MLP (ακρίβεια 90%) το οποίο μας έδωσε την δυνατότητα να αναλύσουμε αποδοτικότερα τόσο τις σωστές, όσο και τις λανθασμένες αποφάσεις του μοντέλου μας. Αντίθετα, στην δεύτερη, αξιοποιήσαμε το δίκτυο LSTM (ακρίβεια 99%), ώστε να μπορέσουμε να εκμεταλλευτούμε την πραγματική ακολουθία των αλφαριθμητικών χαρακτήρων ενός ονόματος τομέα και όχι απλά στατιστικά χαρακτηριστικά. Συνεπώς, με αυτή την προσέγγιση μας δίνεται η δυνατότητα να αντιληφθούμε τα n-grams που καθοδηγούν τις αποφάσεις του δικτύου μας. Τέλος, επεκτείναμε την υλοποίηση με LSTM με μια multi-class προσέγγιση, όπου χρησιμοποιήσαμε κάποιες από τις οικογένειες DGA, ώστε να γίνει ένα πρώτο βήμα στην ουσιαστικότερη κατανόηση του τρόπου παραγωγής τους, καθώς εντοπίζουμε τα n-grams που ωθούν τα μοντέλα μας όχι μόνο να ανιχνεύσουν κακόβουλη δικτυακή κίνηση, αλλά και από ποιον αλγόριθμο προήλθε. Παράλληλα, χρησιμοποιούμε το framework του SHAP (SHapley Additive exPlanations) ώστε να ερμηνεύσουμε τα χαρακτηριστικά με την περισσότερη επιρροή στα μοντέλα μας και να ποσοτικοποιήσουμε την συνεισφορά τους σε κάθε παράδειγμα ξεχωριστά (τοπική επεξήγηση) και στο σύνολο του δείγματος μας (γενική επεξήγηση). Συγκρίνοντας τις δύο μεθοδολογίες αναγνωρίζουμε ότι τα στατιστικά χαρακτηριστικά ναι μεν είναι πιο εύκολα κατανοητά από τον άνθρωπο, ωστόσο κρύβουν παθογένειες που βασίζονται στην μη αξιοποίηση του πραγματικού ονόματος τομέα, κάτι που επιλύεται ουσιαστικά από την δεύτερη μεθοδολογία (χρήση n-grams), η οποία παρέχει υψηλότερη ακρίβεια αλλά και βαθύτερα αποτελέσματα για την κατανόηση της λειτουργίας των DGA.	el
heal.advisorName	Μάγκλαρης, Βασίλειος	el
heal.committeeMemberName	Μάγκλαρης, Βασίλειος	el
heal.committeeMemberName	Συκάς, Ευστάθιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	80 σ.	el
heal.fullTextAvailability	false