Κρησάρισμα μεταβλητών και επιλογή χαρακτηριστικών σε δεδομένα υψηλής διάστασης

Λοϊζου, Μάριος; Loizou, Marios

dc.contributor.author	Λοϊζου, Μάριος	el
dc.contributor.author	Loizou, Marios	en
dc.date.accessioned	2016-09-19T11:14:20Z
dc.date.available	2016-09-19T11:14:20Z
dc.date.issued	2016-09-19
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/43584
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.13012
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Κρησάρισμα	el
dc.subject	Σίγουρο ανεξάρτητο κρησάρισμα	el
dc.subject	Προβολή ελαχίστων τετραγώνων	el
dc.subject	Συσχέτιση της απόστασης	el
dc.subject	Ποινικοποιημένες μέθοδοι	el
dc.subject	Screening	en
dc.subject	Sure independence screening	en
dc.subject	High dimensional ordinary least square	en
dc.subject	Distance correlation	en
dc.subject	Screening with distance correlation	en
dc.title	Κρησάρισμα μεταβλητών και επιλογή χαρακτηριστικών σε δεδομένα υψηλής διάστασης	el
heal.type	bachelorThesis
heal.secondaryTitle	Variables screening and feature selection in high dimensional data	en
heal.classification	Στατιστική	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2016-07-11
heal.abstract	Στατιστικά προβλήματα υψηλής διάστασης προκύπτουν από διάφορα πεδία επιστημονικής έρευνας, και τεχνολογικής ανάπτυξης. Το κρησάρισμα μεταβλητών (feature screening) και η επιλογή χαρακτηριστικών (feature selection) παίζει σημαντικό ρόλο στην σύγχρονη στατιστική συμπερασματολογία και στις επιστημονικές ανακαλύψεις. Με τον όρο “κρησάρισμα μεταβλητών” αναφερόμαστε στην διαδικασία σκαρταρίσματος επεξηγηματικών μεταβλητών σε δεδομένα υψηλής διάστασης, έτσι ώστε να μειωθεί ο αριθμός τους αισθητά, χωρίς όμως να εκδιωχθούν από το μοντέλο οι πραγματικά σημαντικές μεταβλητές. Βλέποντας πιο προσεκτικά τον όρο αυτό βλέπουμε ότι ένα επιτυχές κρησάρισμα αποτελεί σπουδαίο επίτευγμα και διευκολύνει δραστικά την ανάλυση των δεδομένων αφού κλασσικές στατιστικές μέθοδοι που πριν αποτύγχαναν, τώρα μπορούν να χρησιμοποιηθούν. Έτσι η επιλογή χαρακτηριστικών γίνεται εφικτή, πιο εύκολη και πιο ακριβής. Την πρώτη μέθοδο κρησαρίσματος την πρότειναν οι Fan και Li (2008) και την ονόμασαν μέθοδος σίγουρου ανεξάρτητου κρησαρίσματος (Sure Independence Screening (SIS)) η οποία βασίζεται στη μάθηση συσχέτισης (correlation learning) . Στο ίδιο άρθρο πρότειναν μια επαναληπτική μορφή της SIS, την επαναληπτική μέθοδο σίγουρου ανεξάρτητου κρησαρίσματος (Iterative Sure Independence Screening (ISIS)) η οποία προτάθηκε για την επίλυση κάποιων προβλημάτων που αντιμετώπιζε η SIS. Οι Li, Zhong και Zhu (2012) πρότειναν μια άλλη μέθοδο κρησαρίσματος, την μέθοδο συσχέτισης της απόστασης βασισμένη στο σίγουρο ανεξάρτητο κρησάρισμα (Distance Correlation-based Sure Independence Screening (DC-SIS)), η οποία βασίζεται στην μάθηση συσχέτισης της απόστασης (Distance Correlation) που αποτελεί ένα νέος είδος συσχέτισης μεταβλητών που προτάθηκε από τους Szekely, Rizzo και Bakirov (2007). Λόγω του ότι η DC-SIS παρουσιάζει παρόμοια προβλήματα με την SIS, οι Zhong και Zhu (2015) πρότειναν μια επαναληπτική DC-SIS την Iterative DC-SIS που προσπαθεί να λύσει τέτοιου είδους προβλήματα. Οι Wang και Leng (2015) πρότεινα την μέθοδο προβολής κανονικών ελάχιστων τετραγώνων σε υψηλής διάστασης δεδομένα (High Dimensional Ordinary Least Square Screening (HOLP)) η οποία δεν ασχολείται με τη συσχέτιση μεταβλητών όπως οι προηγούμενες μέθοδοι. Στην παρούσα διπλωματική εργασία ασχολούμαστε κυρίως με μεθόδους κρησαρίσματος καθώς και με την επιλογή μεταβλητών χρησιμοποιώντας ποινικοποιημένες μεθόδους. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο γίνεται αναφορά στο γενικό γραμμικό μοντέλο και στις βασικές τεχνικές εκτίμησης παραμέτρων καθώς επίσης και στις μεθόδους επιλογής μεταβλητών και εκτίμησης παραμέτρων που βασίζονται στη εισαγωγή μιας συνάρτησης ποινής στην μέθοδο ελάχιστων τετραγώνων. Το κεφάλαιο 2 εισαγάγει τις έννοιες δεδομένων υψηλής διάστασης και σίγουρου κρησαρίσματος και εξετάζει εκτενώς τις μεθόδους SIS και Iterative-SIS. Στο κεφάλαιο 3 παρουσιάζεται η μέθοδος σίγουρου κρησαρίσματος προβολή κανονικών ελάχιστων τετραγώνων σε υψηλής διάστασης δεδομένα (High Dimensional Ordinary Least Square Screening (HOLP)). Το τέταρτο κεφάλαιο παρουσιάζει συνοπτικά την συσχέτιση της απόσταση μεταβλητών (Distance Correlation) και ασχολείται με τις μεθόδους DC-SIS και DC-ISIS. Στο κεφάλαιο 5 γίνονται αριθμητικές συγκρίσεις μεταξύ των μεθόδων κρησαρίσματος, με την βοήθεια του στατιστικού πακέτου R.	el
heal.abstract	High dimensional statistical problems arise from diverse fields of scientific research and technological development. Feature screening and feature selection play a pivotal role in contemporary statistical learning and scientific discoveries. Feature screening refers to the procedure of screening potential explanatory variables in high dimension data so as to reduce their numbers significantly, without leaving the model’s really important variables out. Paying a closer attention to this term, one can see that a successful feature screening is a great achievement since it drastically simplifies the data analysis making classical statistical methods that failed once before, to be used now. Therefore, the choice of characteristics becomes possible, easier and more accurate. The first method was introduced in an article by Fan and Li (2008), titled as Sure Independence Screening (SIS). This method is based on correlation learning. In the same article, an iterative form of SIS was suggested, which was called Iterative Sure Independence Screening (ISIS). This particular method was introduced in order to deal with some problems which derived from the first model (SIS). In another article, Li, Zhong and Zhu (2012) suggested an alternative method of feature screening that of Distance Correlation-based Sure Independence Screening (DC-SIS), which was based on distance correlation learning consisting of a new kind of distance correlation variables which was suggested by Szekely, Rizzo and Bakirov (2007). powever, DC-SIS dealt with some similar problems as SIS, therefore Zhong and Zhu (2015) suggested Iterative DC-SIS, in order to solve these kinds of problems. Wang and Leng (2015) suggested another method called High Dimensional Ordinary Least Square Screening (HOLP), which does not deal with variable correlation like the previously mentioned methods. This particular paper mainly deals with various methods of feature screening but also with variable selection using penalised methods. More specifically, the first chapter not only makes some references to the general linear model and basic techniques in parameter estimation, but it also refers to methods of choosing and estimates different variables which are based on the introduction of one penalty function to the least square method. Chapter two introduces the meaning of high dimensional data and sure screening και thoroughly examines the screening methods SIS και Iterative-SIS. Chapter three presents one new sure screening method, the High Dimensional Ordinary Least Square Screening (HOLP). The fourth chapter briefly presents Distance Correlation and deals with the DC-SIS και DC-ISIS methods. In the fifth chapter and final chapter of this paper numerical comparisons are presented between the screening methods with the help of the statistical package R.	en
heal.advisorName	Κουκουβίνος, Χρήστος	el
heal.committeeMemberName	Καρώνη-Ρίτσαρντσον, Χρυσηίς	el
heal.committeeMemberName	Βόντα, Φιλία	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών	el
heal.academicPublisherID	ntua
heal.numberOfPages	92 σ.
heal.fullTextAvailability	true