Εφαρμογή μεθόδων μηχανικής μάθησης για την ανίχνευση κακόβουλου λογισμικού

Λαμπράκης, Δημήτριος; Lamprakis, Dimitrios

dc.contributor.author	Λαμπράκης, Δημήτριος	el
dc.contributor.author	Lamprakis, Dimitrios	en
dc.date.accessioned	2022-02-04T14:46:24Z
dc.date.available	2022-02-04T14:46:24Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/54547
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.22245
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/gr/	*
dc.subject	Μηχανική μάθηση	el
dc.subject	Βαθιά μάθηση	el
dc.subject	Κακόβουλο λογισμικό	el
dc.subject	Μείωση διαστάσεων	el
dc.subject	Εξαγωγή χαρακτηριστικών	el
dc.subject	Machine learning	en
dc.subject	Deep learning	en
dc.subject	Malware	en
dc.subject	Dimensionality reduction	en
dc.subject	Feature extraction	en
dc.title	Εφαρμογή μεθόδων μηχανικής μάθησης για την ανίχνευση κακόβουλου λογισμικού	el
dc.title	Machine learning applications for malware detection	en
heal.type	masterThesis
heal.classification	Βαθιά μάθηση	el
heal.classification	Deep learning	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2021-11-11
heal.abstract	Η χρήση της μηχανικής μάθησης στον τομέα της κυβερνοασφάλειας τα τελευταία χρόνια έχει αυξηθεί κατακόρυφα. Ιδιαίτερα το πεδίο της ανίχνευσης κακόβουλου λογισμικού προσφέρεται εξαιρετικά για την εφαρμογή μεθόδων μηχανικής μάθησης. Η παρούσα εργασία στοχεύει στην ανάπτυξη ενός ανιχνευτή βασισμένου εξ’ ολοκλήρου σε τεχνικές βαθιάς μάθησης. Προφανώς, για την σωστή ανάπτυξη ενός ανιχνευτή κακόβουλου λογισμικού, αρχικά, παρουσιάζεται η βασική γνώση λειτουργίας των κακόβουλων λογισμικών, του λειτουργικού συστήματος πάνω στο οποίο εκτελούνται αλλά και των κλασσικών μεθόδων ανίχνευσης. Η λύση ενός ανιχνευτή βασισμένου σε τεχνικές μηχανικής μάθησης έρχεται για να καλύψει κάποια κενά που υπάρχουν από τις κλασσικές προσεγγίσεις με κυριότερο την απαίτηση για χειροκίνητη ανανέωση της βάσης που εμπεριέχει τις πληροφορίες για την ταυτοποίηση των απειλών. Η διεθνής βιβλιογραφία βρίθει από δημοσιεύσεις που αντιμετωπίζουν το συγκεκριμένο πρόβλημα. Η προσπάθεια διαφοροποίησης γίνεται με γνώμονα δύο βασικά σημεία: στον χρόνο που χρειάζεται ο ανιχνευτής για την εκπαίδευση μέχρι να δίνει καλά αποτελέσματα και στην επεξεργασία των δεδομένων. Ο τύπος των δεδομένων που επιλέχθηκε είναι στατικές εικόνες που παράχθηκαν από την δυαδική αναπαράσταση των εκτελέσιμων αρχείων. Τα στατικά χαρακτηριστικά είναι τα πιο ασφαλή να εξαχθούν καθώς δεν απαιτείται δυναμική ανάλυση και επειδή είναι σε μορφή εικόνων υπάρχει η δυνατότητα εκμετάλλευσης πανίσχυρων τεχνητών νευρωνικών δικτύων που ειδικεύονται στην αναγνώριση και κατηγοριοποίηση εικόνων. Κατά την διάρκεια των πειραμάτων πραγματοποιήθηκε η μείωση των διαστάσεων των εικόνων και η εξαγωγή πιο αφηρημένων χαρακτηριστικών πριν την τελική τροφοδοσία στα δίκτυα κατηγοριοποίησης. Η μείωση διαστάσεων και η εξαγωγή έγιναν από ένα δίκτυο autoencoder και τα αποτελέσματα ήταν εκπληκτικά. Με έναν αρκετά μικρό αριθμό συνολικών επαναλήψεων ένα απλό δίκτυο CNN πλησίασε σε ακρίβεια πολλά και περίπλοκα δίκτυα από την διεθνή βιβλιογραφία, ενώ ένα προ εκπαιδευμένο δίκτυο ResNet18 έφτασε την ακρίβεια από δημοσιεύματα της διεθνής βιβλιογραφίας με λίγες επαναλήψεις και βασισμένο εξ’ ολοκλήρου σε τεχνικές βαθιάς μάθησης, δεν χρειάστηκε πουθενά χειροκίνητη παρέμβαση. Κλείνοντας, τα πειράματα που εκτελέστηκαν δείχνουν ξεκάθαρα ότι μια λύση βασισμένη σε μεθόδους βαθιάς μηχανικής μάθησης για τον εντοπισμό κακόβουλου λογισμικού είναι μια απολύτως βιώσιμη λύση και προσφέρεται πάρα πολύ για περαιτέρω έρευνα και βελτιστοποίηση.	el
heal.abstract	Τhe use of machine learning models in the field of cybersecurity has increased drastically over the last few years. More specifically malware detection applications have seen great advancements with the use of machine learning. This thesis focuses on developing a malware detector based completely on deep learning techniques. First of all some basic knowledge on topics regarding the methods of operation of malware executables, the underlying operating system and traditional detection methods is presented. The proposed machine learning detector comes to combat a major flaw that traditional detection methods introduce, the need to manually update the database that holds the information required to detect new malware. Internationally a lot of research papers have been published trying to solve the detection challenge. This thesis tries to differentiate in two crucial points: the time required by the detector to train and yield sufficiently good results and the processing of the data. The malware executables were transformed into static images, static features were chosen because they are the safest to extract since no dynamic analysis is required. Using images powerful artificial neural networks can be deployed in order to detect and classify the images as malware or benign executables. During the testing phase, it became quite clear that a dimensionality reduction and feature extraction technique is mandatory, so an autoencoder net was used and the results were exceptional. With a relatively low number of total iterations a simple CNN was able to approach the performance of many and much more complex solutions proposed by many research papers whereas a pretrained model based on ResNet18 was able to achieve similar results, using only deep learning techniques, nothing was done manually. To conclude, the experiments that were performed clearly show that a machine learning based malware detector is a completely viable solution that offers excellent protection and a great topic for further research and optimization.	en
heal.advisorName	Ρουσσάκη, Ιωάννα	el
heal.committeeMemberName	Ρουσσάκη, Ιωάννα	el
heal.committeeMemberName	Αναγνώστου, Μιλτιάδης	el
heal.committeeMemberName	Παπαβασιλείου, Συμεών	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	104 σ.	el
heal.fullTextAvailability	false