Η στατιστική ανάλυση και η αναγνώριση των σημαντικών μεταβλητών σε δεδομένα υψηλών διαστάσεων είναι ένα σημαντικό πρόβλημα στις μέρες μας. Η αποτυχία συνηθισμένων μεθόδων σε μεγάλα δεδομένων προβάλουν την ανάγκη να μελετηθούν καινούργιες μέθοδοι. Η εργασία αυτή ασχολείται με τεχνικές επιλογής χαρακτηριστικών, με σκοπό να βρεθεί ένα υποσύνολο χαρακτηριστικών που είναι το πιο σημαντικό για ταξινόμηση. Εκτός από τις συνηθισμένες τεχνικές επιλογής χαρακτηριστικών έχουν προταθεί πολλοί αλγόριθμοι που ασχολούνται με αυτό το πρόβλημα. Οι μηχανές διανυσματικής υποστήριξης είναι μια καινούργια μέθοδος για την άντληση πληροφοριών από ένα σύνολο δεδομένων και έχουν προταθεί πρόσφατα από πολλούς ερευνητές για σκοπούς επιλογής χαρακτηριστικών. Σε αυτή την εργασία παρουσιάζονται κάποιες μέθοδοι επιλογής χαρακτηριστικών καθώς και οι μηχανές διανυσματικής υποστήριξης, αλλά και μια πρακτική εφαρμογή αυτών των τεχνικών σε πραγματικά δεδομένα.
Το πρώτο κεφάλαιο ασχολείται γενικά με την εξόρυξη γνώσης από δεδομένα υψηλής διάστασης. Γίνεται μια εισαγωγή για τα δεδομένα υψηλής διάστασης αλλά και τα προβλήματα που παρουσιάζονται και στη συνέχεια παρουσιάζεται η ιδέα της εξόρυξης δεδομένων (data mining).
Στο δεύτερο κεφάλαιο παρουσιάζονται τεχνικές εξόρυξης γνώσης και μέθοδοι ταξινόμησης. Παρουσιάζουμε πιο αναλυτικά το πρόβλημα ταξινόμησης αλλά και τεχνικές όπως είναι τα δέντρα αποφάσεων, η λογιστική παλινδρόμηση και οι μηχανές διανυσματικής υποστήριξης.
Το τρίτο κεφάλαιο ασχολείται με την επιλογή χαρακτηριστικών. Παρουσιάζουμε τη μέθοδο, τα προβλήματα που έχουμε να αντιμετωπίσουμε και πώς μπορούμε να τα αντιμετωπίσουμε. Ακόμα παρουσιάζουμε κάποιες μεθόδους και αλγόριθμους επιλογής χαρακτηριστικών. Τέλος, παρουσιάζουμε τους αλγόριθμους SVM-RFE και Lasso που χρησιμοποιούνται για την επιλογή χαρακτηριστικών και που θα χρησιμοποιήσουμε στο πέμπτο κεφάλαιο για την εφαρμογή σε πραγματικά δεδομένα.
Το τέταρτο κεφάλαιο αναφέρεται στην αξιολόγηση ενός μοντέλου με τη χρήση μεθόδων, όπως η πολλαπλή επικύρωση και στην απόδοση των ταξινομητών που αναφέρονται παραπάνω. Επιπλέον, συζητούνται οι όροι της ακρίβειας, ευαισθησίας και ειδικότητας που είναι σημαντικοί για να αποφασίσουμε για την απόδοση του μοντέλου.
Στο πέμπτο και τελευταίο κεφάλαιο γίνεται εφαρμογή στην R σε δεδομένα που πήραμε από το UCI Machine Learning Repository. To set δεδομένων που χρησιμοποιούμε είναι το Breast Cancer Wisconsin (Diagnostic) Data Set. Εφαρμόζουμε ταξινόμηση με χρήση των μηχανών διανυσματικής υποστήριξης και κάνουμε επιλογή χαρακτηριστικών με τον αλγόριθμο SVM-RFE. Επίσης, γίνεται ταξινόμηση με λογιστική παλινδρόμηση και κάνουμε επιλογή χαρακτηριστικών με τον αλγόριθμο Lasso. Συγκρίνουμε αυτές τις δύο μεθόδους αναφέρουμε μελλοντική δουλεία που θα μπορούσε να γίνει σε αυτό το πεδίο.
Nowadays, the statistical analysis and the identification of important variables in high dimensional data is an important problem. The failure of conventional methods to large data sets, highlight the need to study new methods. This paper deals with feature selection techniques in order to find a subset of features that are most important for classification. Apart from the conventional feature selection techniques there have been proposed many algorithms dealing with this problem. Support vector machines is a new method for extracting information from a data set and have recently been proposed by many researchers for the purpose of feature selection. In this paper we present some methods of feature selection and support vector machines, and a practical application of these techniques to real data.
The first chapter deals generally with the mining of high-dimension data. An introduction to the high-dimensional data and problems encountered and then we present the concept of data mining.
In the second chapter we present mining techniques and classification methods. We present in detail the problem of classification and techniques such as decision trees, logistic regression and support vector machines.
The third chapter deals with feature selection. We present the method, the problems we face and how we can deal with them. Additional we present some methods and feature selection algorithms. Finally, we present two algorithms, SVM-RFE and Lasso used for feature selection and in fifth chapter are used for an application in real data.
The fourth chapter discusses the evaluation of a model using methods such as cross validation and performance of the classifiers mentioned above. Moreover, we discuss the terms of accuracy, sensitivity and specificity that are important to decide on the performance of the model.
In the fifth and final chapter we present an application in R with data we got from the UCI Machine Learning Repository. The data set we use is the Breast Cancer Wisconsin (Diagnostic) Data Set. We implement classification using support vector machines and apply feature selection with SVM-RFE algorithm. Also, we use logistic regression and apply feature selection with Lasso algorithm. We compare these two methods and finally we mention future work that could be done in this field.