HEAL DSpace

Ανίχνευση κακόβουλων αρχείων PHP με τη χρήση ευφυών τεχνικών

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σκουλός, Ραφαήλ el
dc.contributor.author Skoulos, Rafail en
dc.date.accessioned 2018-06-26T08:40:24Z
dc.date.available 2018-06-26T08:40:24Z
dc.date.issued 2018-06-26
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/47119
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15337
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Κακόβουλος κώδικας el
dc.subject Machine Learning en
dc.subject Μηχανική μάθηση el
dc.subject Ανισορροπία κλάσεων el
dc.subject Εκπαίδευση el
dc.subject Malicious code en
dc.subject PHP en
dc.subject Class imbalance en
dc.subject Training en
dc.title Ανίχνευση κακόβουλων αρχείων PHP με τη χρήση ευφυών τεχνικών el
heal.type bachelorThesis
heal.classification Επιστήμη υπολογιστών/Πληροφορική el
heal.classificationURI http://data.seab.gr/concepts/77de68daecd823babbb58edb1c8e14d7106e83bb
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-05-29
heal.abstract Ο κακόβουλος κώδικας είναι οποιοσδήποτε κώδικας προστίθεται, αλλάζει ή καταργείται από ένα σύστημα λογισμικού για να προξενήσει σκόπιμα βλάβη ή να υπονομεύσει την επιθυμητή λειτουργία του συστήματος. Στην εποχή μας όπου το Διαδίκτυο είναι μέρος της καθημερινότητας μας, η μόλυνση διακομιστών Παγκόσμιου Ιστού με κακόβουλο κώδικα είναι πολύ συχνό φαινόμενο με αρνητικές συνέπειες τόσο για τον ιδιοκτήτη του όσο και για τους χρήστες του. Για τον εντοπισμό τέτοιου κώδικα έχουν αναπτυχθεί πολλά εργαλεία λογισμικού στο εμπόριο τα οποία έχουν υψηλά ποσοστά επιτυχίας. Το πρόβλημα όμως με τα εργαλεία αυτά είναι ότι αποτυγ- χάνουν να αναγνωρίσουν κακόβουλο κώδικα τον οποίο συναντάμε για πρώτη φορά και τον οποίο οι δημιουργοί του έχουν σκόπιμα φτιάξει με τον τρόπο αυτό χρησιμοποιώντας διάφορες τεχνικές ”θό- λωσης” (obfuscation) ώστε να μην αναγνωρίζεται από τέτοια προϊόντα. Ο σκοπός της διπλωματικής εργασίας είναι η ανάπτυξη ενός συστήματος το οποίο θα αναγνω- ρίζει αν ένα αρχείο είναι μολυσμένο ή όχι και θα είναι σε θέση να αναγνωρίζει και τα αρχεία που έχουν υποστεί θόλωση εκτός από όλα τα υπόλοιπα. Στο πλαίσιο αυτό συλλέξαμε μολυσμένα και μη μολυσμένα αρχεία, εξάγαμε τρία σύνολα χαρακτηριστικών από αυτά και έπειτα χρησιμοποιήσαμε τα χαρακτηριστικά ώστε με την χρήση μηχανικής μάθησης να φτιάξουμε μοντέλα που είναι σε θέση να προβλέψουν αν ένα αρχείο είναι μολυσμένο ή όχι. Τέλος αξιολογήσαμε τα αποτελέσματα κάθε αλγο- ρίθμου και κάθε συνόλου χαρακτηριστικών και τα συγκρίναμε μεταξύ τους. Ένα σημαντικό πρόβλημα που αντιμετωπίσαμε ήταν η ανισορροπία κλάσεων στα δεδομένα εισόδου. Συγκεκριμένα, τα χαρακτηριστικά που εξάγαμε αφορούν την λεξικογραφική ανάλυση του κειμέ- νου και τη συχνότητα εμφάνισης των συναρτήσεων της γλώσσας. Οι αλγόριθμοι μηχανικής μάθησης που χρησιμοποιήσαμε είναι τα Δέντρα Αποφάσεων, οι Μηχανές Διανυσμάτων Υποστήριξης και η Στοχαστική Κατάβαση Κλίσης. Οι κυριότερες μετρικές αξιολόγησης που χρησιμοποιήθηκαν είναι η Ακρίβεια, η Ανάκληση και η μετρική F1 στην κλάση μειοψηφίας καθώς και ο Γεωμετρικός Μέ- σος. Τέλος το πρόβλημα της ανισορροπίας κλάσεων στα δεδομένα εισόδου το αντιμετωπίσαμε με τη χρήση μάθησης με ευαισθησία κόστους. Τέλος, αναλύονται τα αποτελέσματα και τα συμπεράσματα που προέκυψαν από τα πειράματα του εκπονήσαμε και δίνονται και μελλοντικές κατευθύνσεις έρευνας. el
heal.abstract Malicious code is any code added, modified or removed by a software system to deliberately damage or compromise the system’s functionality. In our time, where the Internet is part of our everyday life, infecting web servers with malicious code is a very common phenomenon with negative consequences for both the owner and its users. To identify such code, there have been developed many software solutions that have high success rates. The problem with these solutions is that they fail to recognize malicious code that is encountered for the first time and whose creators have deliberately obfuscated it so as not be recognizable by this type of software. The purpose of this thesis is to develop a system that will recognize whether a file is malicious or benign, and will be able to recognize obfuscated files in addition to other files. In this context, we collected malicious and benign files, extracted three sets of attributes from them, and then we used these features to create models by using machine learning techniques that are able to predict whether a file is infected or not. Finally, we evaluated the results of each algorithm and set of attributes and compared them to each other. One important problem we encountered was the class imbalance in the input data. In particular, the features were related to the lexical analysis of the text and the frequency of occurrence of the programming language functions. The machine learning algorithms we used were Decision Trees, Support Vector Machines, and Stochastic Gradient Descent. The main metrics used are Precision, Recall and F1 Measure in the minority class as well as the Geometric Mean. Finally, we dealt with the problem of the class imbalance in the input data by using cost-sensitive learning. Finally, we analyze the results and conclusions of our experiments and provide future research directions. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 57 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα