HEAL DSpace

Κρησάρισμα μεταβλητών και επιλογή χαρακτηριστικών σε δεδομένα υψηλής διάστασης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Λοϊζου, Μάριος el
dc.contributor.author Loizou, Marios en
dc.date.accessioned 2016-09-19T11:14:20Z
dc.date.available 2016-09-19T11:14:20Z
dc.date.issued 2016-09-19
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/43584
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.13012
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Κρησάρισμα el
dc.subject Σίγουρο ανεξάρτητο κρησάρισμα el
dc.subject Προβολή ελαχίστων τετραγώνων el
dc.subject Συσχέτιση της απόστασης el
dc.subject Ποινικοποιημένες μέθοδοι el
dc.subject Screening en
dc.subject Sure independence screening en
dc.subject High dimensional ordinary least square en
dc.subject Distance correlation en
dc.subject Screening with distance correlation en
dc.title Κρησάρισμα μεταβλητών και επιλογή χαρακτηριστικών σε δεδομένα υψηλής διάστασης el
heal.type bachelorThesis
heal.secondaryTitle Variables screening and feature selection in high dimensional data en
heal.classification Στατιστική el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-07-11
heal.abstract Στατιστικά προβλήματα υψηλής διάστασης προκύπτουν από διάφορα πεδία επιστημονικής έρευνας, και τεχνολογικής ανάπτυξης. Το κρησάρισμα μεταβλητών (feature screening) και η επιλογή χαρακτηριστικών (feature selection) παίζει σημαντικό ρόλο στην σύγχρονη στατιστική συμπερασματολογία και στις επιστημονικές ανακαλύψεις. Με τον όρο “κρησάρισμα μεταβλητών” αναφερόμαστε στην διαδικασία σκαρταρίσματος επεξηγηματικών μεταβλητών σε δεδομένα υψηλής διάστασης, έτσι ώστε να μειωθεί ο αριθμός τους αισθητά, χωρίς όμως να εκδιωχθούν από το μοντέλο οι πραγματικά σημαντικές μεταβλητές. Βλέποντας πιο προσεκτικά τον όρο αυτό βλέπουμε ότι ένα επιτυχές κρησάρισμα αποτελεί σπουδαίο επίτευγμα και διευκολύνει δραστικά την ανάλυση των δεδομένων αφού κλασσικές στατιστικές μέθοδοι που πριν αποτύγχαναν, τώρα μπορούν να χρησιμοποιηθούν. Έτσι η επιλογή χαρακτηριστικών γίνεται εφικτή, πιο εύκολη και πιο ακριβής. Την πρώτη μέθοδο κρησαρίσματος την πρότειναν οι Fan και Li (2008) και την ονόμασαν μέθοδος σίγουρου ανεξάρτητου κρησαρίσματος (Sure Independence Screening (SIS)) η οποία βασίζεται στη μάθηση συσχέτισης (correlation learning) . Στο ίδιο άρθρο πρότειναν μια επαναληπτική μορφή της SIS, την επαναληπτική μέθοδο σίγουρου ανεξάρτητου κρησαρίσματος (Iterative Sure Independence Screening (ISIS)) η οποία προτάθηκε για την επίλυση κάποιων προβλημάτων που αντιμετώπιζε η SIS. Οι Li, Zhong και Zhu (2012) πρότειναν μια άλλη μέθοδο κρησαρίσματος, την μέθοδο συσχέτισης της απόστασης βασισμένη στο σίγουρο ανεξάρτητο κρησάρισμα (Distance Correlation-based Sure Independence Screening (DC-SIS)), η οποία βασίζεται στην μάθηση συσχέτισης της απόστασης (Distance Correlation) που αποτελεί ένα νέος είδος συσχέτισης μεταβλητών που προτάθηκε από τους Szekely, Rizzo και Bakirov (2007). Λόγω του ότι η DC-SIS παρουσιάζει παρόμοια προβλήματα με την SIS, οι Zhong και Zhu (2015) πρότειναν μια επαναληπτική DC-SIS την Iterative DC-SIS που προσπαθεί να λύσει τέτοιου είδους προβλήματα. Οι Wang και Leng (2015) πρότεινα την μέθοδο προβολής κανονικών ελάχιστων τετραγώνων σε υψηλής διάστασης δεδομένα (High Dimensional Ordinary Least Square Screening (HOLP)) η οποία δεν ασχολείται με τη συσχέτιση μεταβλητών όπως οι προηγούμενες μέθοδοι. Στην παρούσα διπλωματική εργασία ασχολούμαστε κυρίως με μεθόδους κρησαρίσματος καθώς και με την επιλογή μεταβλητών χρησιμοποιώντας ποινικοποιημένες μεθόδους. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο γίνεται αναφορά στο γενικό γραμμικό μοντέλο και στις βασικές τεχνικές εκτίμησης παραμέτρων καθώς επίσης και στις μεθόδους επιλογής μεταβλητών και εκτίμησης παραμέτρων που βασίζονται στη εισαγωγή μιας συνάρτησης ποινής στην μέθοδο ελάχιστων τετραγώνων. Το κεφάλαιο 2 εισαγάγει τις έννοιες δεδομένων υψηλής διάστασης και σίγουρου κρησαρίσματος και εξετάζει εκτενώς τις μεθόδους SIS και Iterative-SIS. Στο κεφάλαιο 3 παρουσιάζεται η μέθοδος σίγουρου κρησαρίσματος προβολή κανονικών ελάχιστων τετραγώνων σε υψηλής διάστασης δεδομένα (High Dimensional Ordinary Least Square Screening (HOLP)). Το τέταρτο κεφάλαιο παρουσιάζει συνοπτικά την συσχέτιση της απόσταση μεταβλητών (Distance Correlation) και ασχολείται με τις μεθόδους DC-SIS και DC-ISIS. Στο κεφάλαιο 5 γίνονται αριθμητικές συγκρίσεις μεταξύ των μεθόδων κρησαρίσματος, με την βοήθεια του στατιστικού πακέτου R. el
heal.abstract High dimensional statistical problems arise from diverse fields of scientific research and technological development. Feature screening and feature selection play a pivotal role in contemporary statistical learning and scientific discoveries. Feature screening refers to the procedure of screening potential explanatory variables in high dimension data so as to reduce their numbers significantly, without leaving the model’s really important variables out. Paying a closer attention to this term, one can see that a successful feature screening is a great achievement since it drastically simplifies the data analysis making classical statistical methods that failed once before, to be used now. Therefore, the choice of characteristics becomes possible, easier and more accurate. The first method was introduced in an article by Fan and Li (2008), titled as Sure Independence Screening (SIS). This method is based on correlation learning. In the same article, an iterative form of SIS was suggested, which was called Iterative Sure Independence Screening (ISIS). This particular method was introduced in order to deal with some problems which derived from the first model (SIS). In another article, Li, Zhong and Zhu (2012) suggested an alternative method of feature screening that of Distance Correlation-based Sure Independence Screening (DC-SIS), which was based on distance correlation learning consisting of a new kind of distance correlation variables which was suggested by Szekely, Rizzo and Bakirov (2007). powever, DC-SIS dealt with some similar problems as SIS, therefore Zhong and Zhu (2015) suggested Iterative DC-SIS, in order to solve these kinds of problems. Wang and Leng (2015) suggested another method called High Dimensional Ordinary Least Square Screening (HOLP), which does not deal with variable correlation like the previously mentioned methods. This particular paper mainly deals with various methods of feature screening but also with variable selection using penalised methods. More specifically, the first chapter not only makes some references to the general linear model and basic techniques in parameter estimation, but it also refers to methods of choosing and estimates different variables which are based on the introduction of one penalty function to the least square method. Chapter two introduces the meaning of high dimensional data and sure screening και thoroughly examines the screening methods SIS και Iterative-SIS. Chapter three presents one new sure screening method, the High Dimensional Ordinary Least Square Screening (HOLP). The fourth chapter briefly presents Distance Correlation and deals with the DC-SIS και DC-ISIS methods. In the fifth chapter and final chapter of this paper numerical comparisons are presented between the screening methods with the help of the statistical package R. en
heal.advisorName Κουκουβίνος, Χρήστος el
heal.committeeMemberName Καρώνη-Ρίτσαρντσον, Χρυσηίς el
heal.committeeMemberName Βόντα, Φιλία el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών el
heal.academicPublisherID ntua
heal.numberOfPages 92 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα