Αναμφίβολα, ένα από τα σημαντικότερα προβλήματα που υπάρχουν όσον αφορά την ταξινόμηση ενός συνόλου, έχει να κάνει με τον μεγάλο αριθμό δεδομένων από τα οποία αυτό αποτελείται, πράγμα το οποίο δυσχεραίνει σε μεγάλο βαθμό την όλη διαδικασία, καθιστώντας την ταξινόμηση, πολλές φορές αναποτελεσματική, με την εμφάνιση μεγάλου αριθμού σφαλμάτων. Προκειμένου να επιλυθεί το πρόβλημα αυτό, εφαρμόζονται στα σύνολα δεδομένων, διάφορες τεχνικές επιλογής χαρακτηριστικών, οι οποίες χρησιμοποιούνται για την επιλογή ενός μικρού υποσυνόλου αποτελούμενο από τα σημαντικότερα και πιο χρήσιμα χαρακτηριστικά, με αποτέλεσμα το νέο αυτό σύνολο να μπορεί να ταξινομηθεί με ακρίβεια. Υπάρχουν πάρα πολλές τέτοιες μεθόδοι επιλογής βέλτιστου υποσυνόλου με την απομόνωση των καλύτερων χαρακτηριστικών από το σύνολο. Στην εργασία αυτή, επικεντρωνόμαστε αποκλειστικά στην ανάλυση μεθόδων επιλογής χαρακτηριστικών, οι οποίες ειναι βασισμένες αποκλειστικά πάνω σε μέτρα πληροφορίας όπως την εντροπία και την υπό συνθήκη αμοιβαία πληροφορία.
Συγκεκριμένα, στο πρώτο κεφάλαιο, γίνεται μια λεπτομερής ιστορική αναδρομή, για τη θεωρία πληροφορίας και για το πως αυτή κατέληξε να θεωρείται μετρήσιμο μέγεθος. Γίνεται ιδιαίτερη αναφορά, στο θεμελιωτή της Claude Shannon, ενώ στο τέλος του κεφαλαίου περιγράφεται συνοπτικά η μέθοδος με την οποία η πληροφορία μεταφέρεται από τον μεταδότη στον παραλήπτη της.
Στο δεύτερο κεφάλαιο, αναλύονται τα σημαντικότερα μέτρα πληροφορίας που υπάρχουν. Ιδιαίτερη έμφαση, δίνεται στο βασικότερο από αυτά, την εντροπία κατά Shannon, πάνω στην οποία βασίζονται και τα υπόλοιπα μέτρα. Επίσης, αναλύονται διάφορες μαθηματικές σχέσεις, μεταξύ των μέτρων αυτών, χρήσιμες για τη συνέχεια της εργασίας, οι οποίες δείχνουν ακριβώς το πόσο αλληλένδετα είναι αυτά τα μέτρα μεταξύ τους.
Το τρίτο κεφάλαιο είναι αποκλειστικά αφιερωμένο πάνω στην επιλογή χαρακτηριστικών. Αναλύονται συγκεκριμένα τα 2 στάδια τα οποία περιλαμβάνει η διαδικασία αυτή, ενώ παράλληλα, παρουσιάζονται οι 3 κατηγορίες (filter, wrapper, embedded), πάνω στις οποίες χωρίζονται οι διάφορες μεθόδοι. Στο τέλος, αναφέρονται επιγραμματικά, κάποιες συγκεκριμένες μεθόδοι επιλογής χαρακτηριστικών, οι οποίες θα μας απασχολήσουν σε πειραματικές συγκρίσεις που γίνονται στο πέμπτο κεφάλαιο.
Στο τέταρτο κεφάλαιο, γίνεται αναφορά στις μηχανές εκμάθησης καθώς και στη διαδικασία της ταξινόμησης δεδομένων. Παράλληλα αναλύονται και σχολιάζονται οι σημαντικότεροι ταξινομητές που υπάρχουν.
Τέλος, στο πέμπτο και βασικότερο κεφάλαιο, αναλύονται λεπτομερώς, 3 από τις σημαντικότερες μεθόδους επιλογής χαρακτηριστικών βασισμένες σε μέτρα πληροφορίας που υπάρχουν. Συγκεκριμένα, περιγράφονται και αναλύονται οι μεθόδοι mMIFS, mMIFS-U και CMIM. Στο τέλος κάθε υποκεφαλαίου, περιγράφονται τα πειράματα που έγιναν, προκειμένου να υπολογίστεί η αποδοτικότητα των μεθόδων αυτών. Τα αποτελέσματα των πειραμάτων αυτών παρουσιάζονται σχηματικά και σχολιάζονται εκτενώς.
There is no doubt that one of the biggest problems in dataset classification, concerns the large amount of data the set may have. In such a case, classification is quite often ineffective with substantial errors. To solve this problem, it is quite common to use some very specific feature selection methods, in order to decrease the amount of our data, thus determining a small subset consisting of the most significant data. In this way, the new subset can then be classified without any problem. There is a large variety of feature selection methods to be chosen from. In this paper we focus on feature selection methods based on information measures such as entropy and conditional mutual information.
Chapter 1, includes a detailed review of the history of information theory. It introduces Claude Shannon, the “father” of information theory and discusses his contribution to this field and also the way he manages to measure information. At the end of the chapter there is a short description about the way information is transferred from the transmitter to the receiver.
In Chapter 2, there is an analysis of the most important information measures with the focus on entropy, the most basic of these, and on which all other information measures are based. Furthermore some important mathematical equations which combine these information measures are presented.
Chapter 3 is dedicated to feature selection. More specifically, it presents the 2 stages of this procedure and describes the 3 categories (filter, embedded, wrapper) which feature selection methods are divided into. The end of this chapter briefly introduces some special feature selection methods, which will be use in Chapter 5 in the experiments present therein.
Chapter 4 deals with classification problems. It discusses machine learning and also defines the meaning of classification. Furthermore there is extensive discussion on some of the most important classifiers used.
Finally, in the fifth and most important chapter we present three feature selection methods based on information measures. More specifically, this chapter deals with mRMR, CMIM and mMIFS-U methods. At the end of each section there is a description of some experiments that were carried out in order to compute the efficiency of these methods. The results of these experiments are presented in graphic form and conclusions are given.