Ανίχνευση κακόβουλων δυαδικών αρχείων με τη χρήση ευφυών τεχνικών

Λέκκας, Δημήτριος; Lekkas, Dimitrios

dc.contributor.author	Λέκκας, Δημήτριος	el
dc.contributor.author	Lekkas, Dimitrios	en
dc.date.accessioned	2019-07-16T08:57:06Z
dc.date.available	2019-07-16T08:57:06Z
dc.date.issued	2019-07-16
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/49073
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.16397
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	κακόβουλο λογισμικό	en
dc.subject	Μηχανική μάθηση	el
dc.subject	Ενισχυμένα δέντρα	el
dc.subject	Δέντρα απόφασης	el
dc.subject	Μηχανές διανυσμάτων υποστήριξης	el
dc.subject	Τυχαία δάση	el
dc.subject	Εκτελέσιμα αρχεία Windows	el
dc.subject	Συσκοτισμένο κακόβουλο λογισμικό	el
dc.subject	Malware	en
dc.subject	Obfuscated malware	en
dc.subject	PE files	en
dc.subject	Random forest	en
dc.subject	Support vector machines	en
dc.subject	Decision trees	en
dc.subject	Gradient boosting	en
dc.subject	Machine learning	en
dc.title	Ανίχνευση κακόβουλων δυαδικών αρχείων με τη χρήση ευφυών τεχνικών	el
heal.type	bachelorThesis
heal.classification	ΕΠΙΣΤΗΜΗ ΥΠΟΛΟΓΙΣΤΩΝ/ΠΛΗΡΟΦΟΡΙΚΗ	el
heal.classificationURI	http://data.seab.gr/concepts/77de68daecd823babbb58edb1c8e14d7106e83bb
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-02-26
heal.abstract	Οι τεχνικές Μηχανικές Μάθησης διαδραματίζουν έναν ολοένα και μεγαλύτερο ρόλο στον τομέα της Ασφάλειας Υπολογιστών. Λόγω της δομής του προβλήματος, η μεγαλύτερη πρόκληση στην αναγνώριση κακόβουλου λογισμικού είναι η εξαγωγή ωφέλιμων και ισχυρών χαρακτηριστικών τα οποία θα είναι ικανά να εκπαιδεύσουν επαρκώς τους ταξινομητές για να βελτιώσουν την προβλεπτική τους ισχύ. Στην βιβλιογραφία υπάρχουν εργασίες που ακολουθούν κατά κύριο λόγο δυο βασικές προσεγγίσεις στην ανίχνευση και κατηγοριοποίηση κακόβουλου λογισμικού· στην πρώτη η έμφαση δίνεται στην εκπαίδευση βαθιών νευρωνικών δικτύων χωρίς χρήση εξειδικευμένης γνώσης του τομέα της Ασφάλειας των Υπολογιστών, ενώ στη δεύτερη εξάγονται χαρακτηριστικά με ιδιαίτερα έντονες υπολογιστικές απαιτήσεις. Ωστόσο, η εκπαίδευση νευρωνικών δικτύων αποδεικνύεται ανεπαρκής στην αναγνώριση πολυμορφικού και μεταμορφικού λογισμικού, ενώ η εξαγωγή περίπλοκων χαρακτηριστικών καθιστά τα μοντέλα απαγορευτικά για εφαρμογές πραγματικού χρόνου. Στο πλαίσιο της εργασίας προτείνεται η εξαγωγή ενός συνόλου χαρακτηριστικών που είναι ικανά να αναδείξουν επαρκώς τις προθέσεις ενός εκτελέσιμου αρχείου, ενώ ταυτόχρονα η εξαγωγή τους γίνεται με αρκετά αποτελεσματικό τρόπο. Παράλληλα, εξετάζονται διάφορα σύνολα χαρακτηριστικών πού έχουν προταθεί στη βιβλιογραφία και ενσωματώνονται πρωτότυπες προσθήκες που βελτιώνουν αισθητά την απόδοση των ταξινομητών. Αξιολογείται πρακτικά και σημασιολογικά το κέρδος πληροφορίας των συνόλων χαρακτηριστικών που εξάγονται και επιλέγονται τα τελικά χαρακτηριστικά μέσω ενός άπληστου αλγόριθμου πρόσθιας βηματικής επιλογής. Στη συνέχεια αξιολογείται η επίδοση διάφορων μοντέλων επιβλεπόμενης μάθησης και δίνεται έμφαση σε εκείνα τα οποία εκπαιδεύονται μέσω κατασκευής δεντρικής δομής. Μετά από εκτενή ανάλυση της ολικής αρχιτεκτονικής μηχανικής μάθησης του προβλήματος προτείνεται το τελικό σύστημα, η αξιοπιστία του οποίου αποδεικνύεται με βάση κάποιες κρίσιμες μετρικές αξιολόγησης. Τέλος επιβεβαιώνεται ότι η εξαγωγή των προτεινόμενων χαρακτηριστικών είναι αρκετά αποδοτική ώστε να εφαρμοστεί σε κατηγοριοποίηση πραγματικού χρόνου.	el
heal.abstract	Machine learning techniques play a continuously increasing role in the Computer Security sector. Due to the structure of the problem, the major challenge is the extraction of useful and powerful features that would help adequately train the classifiers in order to enhance their predictive ability. In literature, most works follow two major approaches in the detection and categorization of malware; in the first of them, the emphasis is placed in training deep neural networks without exploiting any domain-specific knowledge of the Computer Security area, while the second involves the extraction of computationally intensive features. Nevertheless, neural network training proves to be inadequate in the detection of polymorphic or metamorphic malware, whilst the extraction of complicated features renders the use of those models prohibitive for real-time applications. In the context of the current thesis, the extraction of a robust set of features that are able to properly indicate the intensions of an executable file, is proposed, while their extraction is achieved in a highly efficient manner, at the same time. Furthermore, several feature sets proposed in the literature are examined and novel additions, which lead to a substantial increase in the classifiers' performance, are also incorporated. The information gain of the extracted feature sets is evaluated practically and semantically and the final features are selected through a greedy forward stepwise selection algorithm. The performance of several supervised learning classifiers is subsequently evaluated and emphasis is placed on those that are trained through the construction of a tree structure. After an extensive analysis of our machine learning pipeline, the final system is proposed, the performance of which is proven on a set of critical evaluation metrics. Finally, it is demonstrated that the extraction of the proposed features is efficient enough to perform real-time malware classification and detection.	en
heal.advisorName	Γιώργος, Στάμου	el
heal.committeeMemberName	Γιώργος, Στάμου	el
heal.committeeMemberName	Ανδρέας-Γεώργιος, Σταφυλοπάτης	el
heal.committeeMemberName	Παπασπύρου, Νικόλαος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών. Εργαστήριο Ευφυών Επικοινωνιών και Δικτύων Ευρείας Ζώνης	el
heal.academicPublisherID	ntua
heal.numberOfPages	81
heal.fullTextAvailability	true