HEAL DSpace

Επιλογή Χαρακτηριστικών για Ταξινόμηση με τη Βοήθεια Μέτρων Πληροφορίας

DSpace/Manakin Repository

Show simple item record

dc.contributor.advisor Κουκουβίνος, Χρήστος el
dc.contributor.author Χατζηζαχαρίας, Κωνσταντίνος Π. el
dc.contributor.author Chatzizacharias, Konstantinos P. en
dc.date.accessioned 2014-11-28T12:23:12Z
dc.date.available 2014-11-28T12:23:12Z
dc.date.copyright 2014-07-25 -
dc.date.issued 2014-11-28
dc.date.submitted 2014-07-25 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/39767
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.5808
dc.description 121 σ. el
dc.description.abstract Αναμφίβολα, ένα από τα σημαντικότερα προβλήματα που υπάρχουν όσον αφορά την ταξινόμηση ενός συνόλου, έχει να κάνει με τον μεγάλο αριθμό δεδομένων από τα οποία αυτό αποτελείται, πράγμα το οποίο δυσχεραίνει σε μεγάλο βαθμό την όλη διαδικασία, καθιστώντας την ταξινόμηση, πολλές φορές αναποτελεσματική, με την εμφάνιση μεγάλου αριθμού σφαλμάτων. Προκειμένου να επιλυθεί το πρόβλημα αυτό, εφαρμόζονται στα σύνολα δεδομένων, διάφορες τεχνικές επιλογής χαρακτηριστικών, οι οποίες χρησιμοποιούνται για την επιλογή ενός μικρού υποσυνόλου αποτελούμενο από τα σημαντικότερα και πιο χρήσιμα χαρακτηριστικά, με αποτέλεσμα το νέο αυτό σύνολο να μπορεί να ταξινομηθεί με ακρίβεια. Υπάρχουν πάρα πολλές τέτοιες μεθόδοι επιλογής βέλτιστου υποσυνόλου με την απομόνωση των καλύτερων χαρακτηριστικών από το σύνολο. Στην εργασία αυτή, επικεντρωνόμαστε αποκλειστικά στην ανάλυση μεθόδων επιλογής χαρακτηριστικών, οι οποίες ειναι βασισμένες αποκλειστικά πάνω σε μέτρα πληροφορίας όπως την εντροπία και την υπό συνθήκη αμοιβαία πληροφορία. Συγκεκριμένα, στο πρώτο κεφάλαιο, γίνεται μια λεπτομερής ιστορική αναδρομή, για τη θεωρία πληροφορίας και για το πως αυτή κατέληξε να θεωρείται μετρήσιμο μέγεθος. Γίνεται ιδιαίτερη αναφορά, στο θεμελιωτή της Claude Shannon, ενώ στο τέλος του κεφαλαίου περιγράφεται συνοπτικά η μέθοδος με την οποία η πληροφορία μεταφέρεται από τον μεταδότη στον παραλήπτη της. Στο δεύτερο κεφάλαιο, αναλύονται τα σημαντικότερα μέτρα πληροφορίας που υπάρχουν. Ιδιαίτερη έμφαση, δίνεται στο βασικότερο από αυτά, την εντροπία κατά Shannon, πάνω στην οποία βασίζονται και τα υπόλοιπα μέτρα. Επίσης, αναλύονται διάφορες μαθηματικές σχέσεις, μεταξύ των μέτρων αυτών, χρήσιμες για τη συνέχεια της εργασίας, οι οποίες δείχνουν ακριβώς το πόσο αλληλένδετα είναι αυτά τα μέτρα μεταξύ τους. Το τρίτο κεφάλαιο είναι αποκλειστικά αφιερωμένο πάνω στην επιλογή χαρακτηριστικών. Αναλύονται συγκεκριμένα τα 2 στάδια τα οποία περιλαμβάνει η διαδικασία αυτή, ενώ παράλληλα, παρουσιάζονται οι 3 κατηγορίες (filter, wrapper, embedded), πάνω στις οποίες χωρίζονται οι διάφορες μεθόδοι. Στο τέλος, αναφέρονται επιγραμματικά, κάποιες συγκεκριμένες μεθόδοι επιλογής χαρακτηριστικών, οι οποίες θα μας απασχολήσουν σε πειραματικές συγκρίσεις που γίνονται στο πέμπτο κεφάλαιο. Στο τέταρτο κεφάλαιο, γίνεται αναφορά στις μηχανές εκμάθησης καθώς και στη διαδικασία της ταξινόμησης δεδομένων. Παράλληλα αναλύονται και σχολιάζονται οι σημαντικότεροι ταξινομητές που υπάρχουν. Τέλος, στο πέμπτο και βασικότερο κεφάλαιο, αναλύονται λεπτομερώς, 3 από τις σημαντικότερες μεθόδους επιλογής χαρακτηριστικών βασισμένες σε μέτρα πληροφορίας που υπάρχουν. Συγκεκριμένα, περιγράφονται και αναλύονται οι μεθόδοι mMIFS, mMIFS-U και CMIM. Στο τέλος κάθε υποκεφαλαίου, περιγράφονται τα πειράματα που έγιναν, προκειμένου να υπολογίστεί η αποδοτικότητα των μεθόδων αυτών. Τα αποτελέσματα των πειραμάτων αυτών παρουσιάζονται σχηματικά και σχολιάζονται εκτενώς. el
dc.description.abstract There is no doubt that one of the biggest problems in dataset classification, concerns the large amount of data the set may have. In such a case, classification is quite often ineffective with substantial errors. To solve this problem, it is quite common to use some very specific feature selection methods, in order to decrease the amount of our data, thus determining a small subset consisting of the most significant data. In this way, the new subset can then be classified without any problem. There is a large variety of feature selection methods to be chosen from. In this paper we focus on feature selection methods based on information measures such as entropy and conditional mutual information. Chapter 1, includes a detailed review of the history of information theory. It introduces Claude Shannon, the “father” of information theory and discusses his contribution to this field and also the way he manages to measure information. At the end of the chapter there is a short description about the way information is transferred from the transmitter to the receiver. In Chapter 2, there is an analysis of the most important information measures with the focus on entropy, the most basic of these, and on which all other information measures are based. Furthermore some important mathematical equations which combine these information measures are presented. Chapter 3 is dedicated to feature selection. More specifically, it presents the 2 stages of this procedure and describes the 3 categories (filter, embedded, wrapper) which feature selection methods are divided into. The end of this chapter briefly introduces some special feature selection methods, which will be use in Chapter 5 in the experiments present therein. Chapter 4 deals with classification problems. It discusses machine learning and also defines the meaning of classification. Furthermore there is extensive discussion on some of the most important classifiers used. Finally, in the fifth and most important chapter we present three feature selection methods based on information measures. More specifically, this chapter deals with mRMR, CMIM and mMIFS-U methods. At the end of each section there is a description of some experiments that were carried out in order to compute the efficiency of these methods. The results of these experiments are presented in graphic form and conclusions are given. en
dc.description.statementofresponsibility Κωνσταντίνος Π. Χατζηζαχαρίας el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Ταξινόμηση el
dc.subject Μέτρα πληροφορίας el
dc.subject Εντροπία el
dc.subject Επιλογές χαρακτηριστικών el
dc.subject Αμοιβαία πληροφορία el
dc.subject Φίλτρα el
dc.subject Classification en
dc.subject Information measures en
dc.subject Entropy en
dc.subject Feature selection en
dc.subject mRMR en
dc.subject mMIFS-U en
dc.subject CMIM en
dc.title Επιλογή Χαρακτηριστικών για Ταξινόμηση με τη Βοήθεια Μέτρων Πληροφορίας el
dc.title.alternative Feature Selection for Classification based on Information Measures en
dc.type bachelorThesis el (en)
dc.date.accepted 2014-07-24 -
dc.date.modified 2014-07-25 -
dc.contributor.advisorcommitteemember Κουκουβίνος, Χρήστος el
dc.contributor.advisorcommitteemember Σπηλιώτης, Ιωάννης el
dc.contributor.advisorcommitteemember Βόντα, Φιλία el
dc.contributor.committeemember Σπηλιώτης, Ιωάννης el
dc.contributor.committeemember Βόντα, Φιλία el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών el
dc.date.recordmanipulation.recordcreated 2014-11-28 -
dc.date.recordmanipulation.recordmodified 2014-11-28 -


Files in this item

This item appears in the following Collection(s)

Show simple item record