Επιλογή Χαρακτηριστικών για Ταξινόμηση με τη Βοήθεια Μέτρων Πληροφορίας

Χατζηζαχαρίας, Κωνσταντίνος Π.; Chatzizacharias, Konstantinos P.

dc.contributor.advisor	Κουκουβίνος, Χρήστος	el
dc.contributor.author	Χατζηζαχαρίας, Κωνσταντίνος Π.	el
dc.contributor.author	Chatzizacharias, Konstantinos P.	en
dc.date.accessioned	2014-11-28T12:23:12Z
dc.date.available	2014-11-28T12:23:12Z
dc.date.copyright	2014-07-25	-
dc.date.issued	2014-11-28
dc.date.submitted	2014-07-25	-
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/39767
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.5808
dc.description	121 σ.	el
dc.description.abstract	Αναμφίβολα, ένα από τα σημαντικότερα προβλήματα που υπάρχουν όσον αφορά την ταξινόμηση ενός συνόλου, έχει να κάνει με τον μεγάλο αριθμό δεδομένων από τα οποία αυτό αποτελείται, πράγμα το οποίο δυσχεραίνει σε μεγάλο βαθμό την όλη διαδικασία, καθιστώντας την ταξινόμηση, πολλές φορές αναποτελεσματική, με την εμφάνιση μεγάλου αριθμού σφαλμάτων. Προκειμένου να επιλυθεί το πρόβλημα αυτό, εφαρμόζονται στα σύνολα δεδομένων, διάφορες τεχνικές επιλογής χαρακτηριστικών, οι οποίες χρησιμοποιούνται για την επιλογή ενός μικρού υποσυνόλου αποτελούμενο από τα σημαντικότερα και πιο χρήσιμα χαρακτηριστικά, με αποτέλεσμα το νέο αυτό σύνολο να μπορεί να ταξινομηθεί με ακρίβεια. Υπάρχουν πάρα πολλές τέτοιες μεθόδοι επιλογής βέλτιστου υποσυνόλου με την απομόνωση των καλύτερων χαρακτηριστικών από το σύνολο. Στην εργασία αυτή, επικεντρωνόμαστε αποκλειστικά στην ανάλυση μεθόδων επιλογής χαρακτηριστικών, οι οποίες ειναι βασισμένες αποκλειστικά πάνω σε μέτρα πληροφορίας όπως την εντροπία και την υπό συνθήκη αμοιβαία πληροφορία. Συγκεκριμένα, στο πρώτο κεφάλαιο, γίνεται μια λεπτομερής ιστορική αναδρομή, για τη θεωρία πληροφορίας και για το πως αυτή κατέληξε να θεωρείται μετρήσιμο μέγεθος. Γίνεται ιδιαίτερη αναφορά, στο θεμελιωτή της Claude Shannon, ενώ στο τέλος του κεφαλαίου περιγράφεται συνοπτικά η μέθοδος με την οποία η πληροφορία μεταφέρεται από τον μεταδότη στον παραλήπτη της. Στο δεύτερο κεφάλαιο, αναλύονται τα σημαντικότερα μέτρα πληροφορίας που υπάρχουν. Ιδιαίτερη έμφαση, δίνεται στο βασικότερο από αυτά, την εντροπία κατά Shannon, πάνω στην οποία βασίζονται και τα υπόλοιπα μέτρα. Επίσης, αναλύονται διάφορες μαθηματικές σχέσεις, μεταξύ των μέτρων αυτών, χρήσιμες για τη συνέχεια της εργασίας, οι οποίες δείχνουν ακριβώς το πόσο αλληλένδετα είναι αυτά τα μέτρα μεταξύ τους. Το τρίτο κεφάλαιο είναι αποκλειστικά αφιερωμένο πάνω στην επιλογή χαρακτηριστικών. Αναλύονται συγκεκριμένα τα 2 στάδια τα οποία περιλαμβάνει η διαδικασία αυτή, ενώ παράλληλα, παρουσιάζονται οι 3 κατηγορίες (filter, wrapper, embedded), πάνω στις οποίες χωρίζονται οι διάφορες μεθόδοι. Στο τέλος, αναφέρονται επιγραμματικά, κάποιες συγκεκριμένες μεθόδοι επιλογής χαρακτηριστικών, οι οποίες θα μας απασχολήσουν σε πειραματικές συγκρίσεις που γίνονται στο πέμπτο κεφάλαιο. Στο τέταρτο κεφάλαιο, γίνεται αναφορά στις μηχανές εκμάθησης καθώς και στη διαδικασία της ταξινόμησης δεδομένων. Παράλληλα αναλύονται και σχολιάζονται οι σημαντικότεροι ταξινομητές που υπάρχουν. Τέλος, στο πέμπτο και βασικότερο κεφάλαιο, αναλύονται λεπτομερώς, 3 από τις σημαντικότερες μεθόδους επιλογής χαρακτηριστικών βασισμένες σε μέτρα πληροφορίας που υπάρχουν. Συγκεκριμένα, περιγράφονται και αναλύονται οι μεθόδοι mMIFS, mMIFS-U και CMIM. Στο τέλος κάθε υποκεφαλαίου, περιγράφονται τα πειράματα που έγιναν, προκειμένου να υπολογίστεί η αποδοτικότητα των μεθόδων αυτών. Τα αποτελέσματα των πειραμάτων αυτών παρουσιάζονται σχηματικά και σχολιάζονται εκτενώς.	el
dc.description.abstract	There is no doubt that one of the biggest problems in dataset classification, concerns the large amount of data the set may have. In such a case, classification is quite often ineffective with substantial errors. To solve this problem, it is quite common to use some very specific feature selection methods, in order to decrease the amount of our data, thus determining a small subset consisting of the most significant data. In this way, the new subset can then be classified without any problem. There is a large variety of feature selection methods to be chosen from. In this paper we focus on feature selection methods based on information measures such as entropy and conditional mutual information. Chapter 1, includes a detailed review of the history of information theory. It introduces Claude Shannon, the “father” of information theory and discusses his contribution to this field and also the way he manages to measure information. At the end of the chapter there is a short description about the way information is transferred from the transmitter to the receiver. In Chapter 2, there is an analysis of the most important information measures with the focus on entropy, the most basic of these, and on which all other information measures are based. Furthermore some important mathematical equations which combine these information measures are presented. Chapter 3 is dedicated to feature selection. More specifically, it presents the 2 stages of this procedure and describes the 3 categories (filter, embedded, wrapper) which feature selection methods are divided into. The end of this chapter briefly introduces some special feature selection methods, which will be use in Chapter 5 in the experiments present therein. Chapter 4 deals with classification problems. It discusses machine learning and also defines the meaning of classification. Furthermore there is extensive discussion on some of the most important classifiers used. Finally, in the fifth and most important chapter we present three feature selection methods based on information measures. More specifically, this chapter deals with mRMR, CMIM and mMIFS-U methods. At the end of each section there is a description of some experiments that were carried out in order to compute the efficiency of these methods. The results of these experiments are presented in graphic form and conclusions are given.	en
dc.description.statementofresponsibility	Κωνσταντίνος Π. Χατζηζαχαρίας	el
dc.language.iso	el	en
dc.rights	ETDFree-policy.xml	en
dc.subject	Ταξινόμηση	el
dc.subject	Μέτρα πληροφορίας	el
dc.subject	Εντροπία	el
dc.subject	Επιλογές χαρακτηριστικών	el
dc.subject	Αμοιβαία πληροφορία	el
dc.subject	Φίλτρα	el
dc.subject	Classification	en
dc.subject	Information measures	en
dc.subject	Entropy	en
dc.subject	Feature selection	en
dc.subject	mRMR	en
dc.subject	mMIFS-U	en
dc.subject	CMIM	en
dc.title	Επιλογή Χαρακτηριστικών για Ταξινόμηση με τη Βοήθεια Μέτρων Πληροφορίας	el
dc.title.alternative	Feature Selection for Classification based on Information Measures	en
dc.type	bachelorThesis	el (en)
dc.date.accepted	2014-07-24	-
dc.date.modified	2014-07-25	-
dc.contributor.advisorcommitteemember	Κουκουβίνος, Χρήστος	el
dc.contributor.advisorcommitteemember	Σπηλιώτης, Ιωάννης	el
dc.contributor.advisorcommitteemember	Βόντα, Φιλία	el
dc.contributor.committeemember	Σπηλιώτης, Ιωάννης	el
dc.contributor.committeemember	Βόντα, Φιλία	el
dc.contributor.department	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών	el
dc.date.recordmanipulation.recordcreated	2014-11-28	-
dc.date.recordmanipulation.recordmodified	2014-11-28	-