HEAL DSpace

Χρήση eXplainable Artificial Intelligence (XAI) για την επεξήγηση μοντέλων ανίχνευσης κίνησης από Domain Generation Algorithms (DGA)

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μιχαηλίδης, Μάριος el
dc.contributor.author Michailidis, Marios en
dc.date.accessioned 2023-05-10T10:37:57Z
dc.date.available 2023-05-10T10:37:57Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57669
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25366
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Botnet en
dc.subject Domain Generation Algorithms (DGA) en
dc.subject Βαθιά Μηχανική Μάθηση el
dc.subject SHAP en
dc.subject eXplainable AI (XAI) en
dc.title Χρήση eXplainable Artificial Intelligence (XAI) για την επεξήγηση μοντέλων ανίχνευσης κίνησης από Domain Generation Algorithms (DGA) el
heal.type masterThesis
heal.classification Μηχανική Μάθηση el
heal.classification Explainable Artificial Intelligence en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-03-28
heal.abstract Στόχος της παρούσας διπλωματικής είναι η μελέτη και η υλοποίηση αλγορίθμων επεξήγησης Τεχνητής Νοημοσύνης (eXplainable AI – XAI) για την ανίχνευση κακόβουλων ονομάτων που παράγονται από Domain Generation Algorithms με σκοπό την παραπλάνηση των administrators του Domain Name System (DNS) σε επιθέσεις από botnets. Το μεγαλύτερο ποσοστό των botnets χρησιμοποιούν Domain Generation Algorithms, για να αποκρύπτουν την ταυτότητα τους μέσω της περιοδικής εκτέλεσης των DGAs και συνεπώς την περιοδική αλλαγή του Domain Name που εκχωρείται στον C&C server. Ο κύριος στόχος αυτών των αλγορίθμων είναι η παραγωγή ενός μεγάλου ψευδοτυχαίου συνόλου ονομάτων τομέα και έπειτα η χρήση ενός υποσυνόλου αυτού για τον έλεγχο και την επικοινωνία μεταξύ του C&C server και των bots. Μ’ αυτόν τον τρόπο οι botmasters ενισχύουν την δομή του botnet και καθιστούν ιδιαίτερα απαιτητική την διαδικασία εντοπισμού του C&C και την αποκοπή του από τα bots καθώς το σύστημα λόγω των περιοδικών αλλαγών είναι ανθεκτικό σε παραδοσιακά συστήματα ασφαλείας όπως το blacklisting. Παρά το γεγονός πως οι μέθοδοι μηχανικής και βαθιάς μάθησης γίνονται ολοένα και πιο δημοφιλείς στην αντιμετώπιση αυτού του προβλήματος και παρουσιάζουν εξαιρετικά αποτελέσματα όσον αφορά την ακρίβεια, εντούτοις παραμένουν «un-interpretable» (μη επεξηγήσιμες) και δύσκολες για τους ερευνητές να κατανοήσουν πως προκύπτουν οι αποφάσεις και οι προβλέψεις τους. Στοχεύοντας στην επίλυση του παραπάνω προβλήματος, παρουσιάζουμε διάφορα μοντέλα μηχανικής μάθησης, δίνοντας έμφαση σε ταξινομητές βαθιάς μηχανικής μάθησης (Multilayer Perceptron - MLP, Long Short-Term Memory) ώστε να επεξηγήσουμε και να ερμηνεύσουμε τα χαρακτηριστικά που καθόρισαν την κατηγοριοποίηση των ονομάτων τομέα σε πραγματικά ή κακόβουλα. Η μελέτη μας ακολουθεί δύο διακριτές μεθοδολογίες αξιοποίησης της πληροφορίας του δείγματος μας. Στην πρώτη, εξαγάγαμε στατιστικά χαρακτηριστικά για τα domain names, όπως το μέγεθος του ονόματος κ.ά. και χρησιμοποιήσαμε Δέντρα Αποφάσεων (ακρίβεια 93%) για την ανάλυση του προβλήματος, καθώς τα αποτελέσματα τους θεωρητικά είναι intrinsically-explainable. Με τα ίδια χαρακτηριστικά, εκπαιδεύσαμε ένα MLP (ακρίβεια 90%) το οποίο μας έδωσε την δυνατότητα να αναλύσουμε αποδοτικότερα τόσο τις σωστές, όσο και τις λανθασμένες αποφάσεις του μοντέλου μας. Αντίθετα, στην δεύτερη, αξιοποιήσαμε το δίκτυο LSTM (ακρίβεια 99%), ώστε να μπορέσουμε να εκμεταλλευτούμε την πραγματική ακολουθία των αλφαριθμητικών χαρακτήρων ενός ονόματος τομέα και όχι απλά στατιστικά χαρακτηριστικά. Συνεπώς, με αυτή την προσέγγιση μας δίνεται η δυνατότητα να αντιληφθούμε τα n-grams που καθοδηγούν τις αποφάσεις του δικτύου μας. Τέλος, επεκτείναμε την υλοποίηση με LSTM με μια multi-class προσέγγιση, όπου χρησιμοποιήσαμε κάποιες από τις οικογένειες DGA, ώστε να γίνει ένα πρώτο βήμα στην ουσιαστικότερη κατανόηση του τρόπου παραγωγής τους, καθώς εντοπίζουμε τα n-grams που ωθούν τα μοντέλα μας όχι μόνο να ανιχνεύσουν κακόβουλη δικτυακή κίνηση, αλλά και από ποιον αλγόριθμο προήλθε. Παράλληλα, χρησιμοποιούμε το framework του SHAP (SHapley Additive exPlanations) ώστε να ερμηνεύσουμε τα χαρακτηριστικά με την περισσότερη επιρροή στα μοντέλα μας και να ποσοτικοποιήσουμε την συνεισφορά τους σε κάθε παράδειγμα ξεχωριστά (τοπική επεξήγηση) και στο σύνολο του δείγματος μας (γενική επεξήγηση). Συγκρίνοντας τις δύο μεθοδολογίες αναγνωρίζουμε ότι τα στατιστικά χαρακτηριστικά ναι μεν είναι πιο εύκολα κατανοητά από τον άνθρωπο, ωστόσο κρύβουν παθογένειες που βασίζονται στην μη αξιοποίηση του πραγματικού ονόματος τομέα, κάτι που επιλύεται ουσιαστικά από την δεύτερη μεθοδολογία (χρήση n-grams), η οποία παρέχει υψηλότερη ακρίβεια αλλά και βαθύτερα αποτελέσματα για την κατανόηση της λειτουργίας των DGA. el
heal.advisorName Μάγκλαρης, Βασίλειος el
heal.committeeMemberName Μάγκλαρης, Βασίλειος el
heal.committeeMemberName Συκάς, Ευστάθιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 80 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής