Αποδοτική ανίχνευση δικτυακών απειλών σε κρυπτογραφημένη κίνηση με πιθανοτικές δομές δεδομένων και αλγορίθμους μηχανικής μάθησης

Ψαλλίδας, Χρήστος; Psallidas, Christos

dc.contributor.author	Ψαλλίδας, Χρήστος	el
dc.contributor.author	Psallidas, Christos	en
dc.date.accessioned	2025-05-26T10:43:24Z
dc.date.available	2025-05-26T10:43:24Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/61961
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.29657
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	Πιθανοτικές δομές	el
dc.subject	Probabilistic data structures	en
dc.subject	Κρυπτογραφημένη κίνηση	el
dc.subject	Ασφάλεια δικτύων	el
dc.subject	Encrypted traffic	en
dc.subject	Cybersecurity	en
dc.title	Αποδοτική ανίχνευση δικτυακών απειλών σε κρυπτογραφημένη κίνηση με πιθανοτικές δομές δεδομένων και αλγορίθμους μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Ασφάλεια Δικτύων	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-02-04
heal.abstract	Η παρούσα εργασία έχει σκοπό την αξιολόγηση της χρήσης πιθανοτικών δομών δεδομένων στην ανίχνευση κακόβουλης κρυπτογραφημένης δικτυακής κίνησης σε πραγματικό χρόνο. Για την επίτευξη του στόχου δημιουργήθηκαν δύο προγραμματιστικές υλοποιήσεις, μία που αξιοποιεί ορισμένες πιθανοτικές δομές και μία αμιγώς ντετερμινιστική. Χρησιμοποιήθηκε dataset που περιλαμβάνει καταγραφές με ποικιλία σχετικής κίνησης, κακόβουλης και καλόβουλης. Από τα κρυπτογραφημένα πακέτα εξάγονται ορισμένα χαρακτηριστικά (μήκος πακέτου, χρόνος, κατεύθυνση), τα οποία ομαδοποιούνται ανά ροή πακέτων, και υπολογίζονται με βάση αυτά συγκεκριμένες στατιστικές ιδιότητες. Στην πιθανοτική υλοποίηση αξιοποιούνται για την αποθήκευση των δεδομένων οι κατάλληλες πιθανοτικές δομές, συγκεκριμένα T-Digest, Top-K και Count Min Sketch. Οι δομές αυτές είναι κατάλληλες για αποθήκευση δεδομένων ροής, απαιτούν σταθερή μνήμη ανεξάρτητη από τον όγκο δεδομένων, και οι χρόνοι εισαγωγής ενός στοιχείου και εξαγωγή μίας μέτρησης από αυτές γίνονται σε σταθερό χρόνο. Κάθε δομή προσφέρει κάποιο από τα απαιτούμενα στατιστικά. Στην ντετερμινιστική υλοποίηση τα χαρακτηριστικά που εξάγονται από τα πακέτα αποθηκεύονται αυτούσια σε λίστες, και τα στατιστικά εξάγονται από αυτές με τη χρήση κλασσικών μαθηματικών συναρτήσεων. Τα στατιστικά που προκύπτουν για κάθε ροή πακέτων οδηγούνται στο στάδιο πρόβλεψης, όπου κάθε ροή κρίνεται είτε κακόβουλη είτε καλόβουλη. Η πρόβλεψη γίνεται από μοντέλα μηχανικής μάθησης, που έχουν εκπαιδευτεί εκ των προτέρων χρησιμοποιώντας ένα υποσύνολο των ροών πακέτων από τις καταγραφές του dataset. Η αξιολόγηση γίνεται με σύγκριση των δύο υλοποιήσεων ως προς τους τομείς ακρίβειας προβλέψεων, χρησιμοποίησης μνήμης και ρυθμού επεξεργασίας.	el
heal.abstract	This thesis aims to evaluate the use of probabilistic data structures for detecting malicious encrypted network traffic in real time. To achieve this goal, two implementations were developed: one utilizing specific probabilistic structures and another purely deterministic. A dataset containing logs of both malicious and benign network traffic was used. From the encrypted packets, certain features (packet length, time, direction) are extracted, then grouped by packet flow, and specific statistical properties are computed based on them. In the probabilistic implementation, appropriate probabilistic data structures are used for data storage, specifically T-Digest, Top-K, and Count Min Sketch. These structures are well-suited for streaming data, require fixed memory independent of data volume, and allow for constant-time insertion of elements and retrieval of measurements. Each structure provides some of the required statistics. In the deterministic implementation, the extracted packet features are stored directly in lists, and statistics are derived from them using classical mathematical functions. The statistics generated for each packet flow are then passed to a prediction stage, where each flow is classified as either malicious or benign. The prediction is performed by machine learning models pre-trained on a subset of packet flows from the dataset logs. Evaluation is carried out by comparing the two implementations in terms of prediction accuracy, memory usage, and processing rate.	en
heal.advisorName	Παπαβασιλείου, Συμεών	el
heal.committeeMemberName	Παπαβασιλείου, Συμεών	el
heal.committeeMemberName	Κοζύρης, Νεκτάριος	el
heal.committeeMemberName	Μάγκλαρης, Βασίλειος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρικής Ισχύος	el
heal.academicPublisherID	ntua
heal.numberOfPages	68 σ.	el
heal.fullTextAvailability	false