dc.contributor.author | Λοϊζου, Μάριος | el |
dc.contributor.author | Loizou, Marios | en |
dc.date.accessioned | 2016-09-19T11:14:20Z | |
dc.date.available | 2016-09-19T11:14:20Z | |
dc.date.issued | 2016-09-19 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/43584 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.13012 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Κρησάρισμα | el |
dc.subject | Σίγουρο ανεξάρτητο κρησάρισμα | el |
dc.subject | Προβολή ελαχίστων τετραγώνων | el |
dc.subject | Συσχέτιση της απόστασης | el |
dc.subject | Ποινικοποιημένες μέθοδοι | el |
dc.subject | Screening | en |
dc.subject | Sure independence screening | en |
dc.subject | High dimensional ordinary least square | en |
dc.subject | Distance correlation | en |
dc.subject | Screening with distance correlation | en |
dc.title | Κρησάρισμα μεταβλητών και επιλογή χαρακτηριστικών σε δεδομένα υψηλής διάστασης | el |
heal.type | bachelorThesis | |
heal.secondaryTitle | Variables screening and feature selection in high dimensional data | en |
heal.classification | Στατιστική | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2016-07-11 | |
heal.abstract | Στατιστικά προβλήματα υψηλής διάστασης προκύπτουν από διάφορα πεδία επιστημονικής έρευνας, και τεχνολογικής ανάπτυξης. Το κρησάρισμα μεταβλητών (feature screening) και η επιλογή χαρακτηριστικών (feature selection) παίζει σημαντικό ρόλο στην σύγχρονη στατιστική συμπερασματολογία και στις επιστημονικές ανακαλύψεις. Με τον όρο “κρησάρισμα μεταβλητών” αναφερόμαστε στην διαδικασία σκαρταρίσματος επεξηγηματικών μεταβλητών σε δεδομένα υψηλής διάστασης, έτσι ώστε να μειωθεί ο αριθμός τους αισθητά, χωρίς όμως να εκδιωχθούν από το μοντέλο οι πραγματικά σημαντικές μεταβλητές. Βλέποντας πιο προσεκτικά τον όρο αυτό βλέπουμε ότι ένα επιτυχές κρησάρισμα αποτελεί σπουδαίο επίτευγμα και διευκολύνει δραστικά την ανάλυση των δεδομένων αφού κλασσικές στατιστικές μέθοδοι που πριν αποτύγχαναν, τώρα μπορούν να χρησιμοποιηθούν. Έτσι η επιλογή χαρακτηριστικών γίνεται εφικτή, πιο εύκολη και πιο ακριβής. Την πρώτη μέθοδο κρησαρίσματος την πρότειναν οι Fan και Li (2008) και την ονόμασαν μέθοδος σίγουρου ανεξάρτητου κρησαρίσματος (Sure Independence Screening (SIS)) η οποία βασίζεται στη μάθηση συσχέτισης (correlation learning) . Στο ίδιο άρθρο πρότειναν μια επαναληπτική μορφή της SIS, την επαναληπτική μέθοδο σίγουρου ανεξάρτητου κρησαρίσματος (Iterative Sure Independence Screening (ISIS)) η οποία προτάθηκε για την επίλυση κάποιων προβλημάτων που αντιμετώπιζε η SIS. Οι Li, Zhong και Zhu (2012) πρότειναν μια άλλη μέθοδο κρησαρίσματος, την μέθοδο συσχέτισης της απόστασης βασισμένη στο σίγουρο ανεξάρτητο κρησάρισμα (Distance Correlation-based Sure Independence Screening (DC-SIS)), η οποία βασίζεται στην μάθηση συσχέτισης της απόστασης (Distance Correlation) που αποτελεί ένα νέος είδος συσχέτισης μεταβλητών που προτάθηκε από τους Szekely, Rizzo και Bakirov (2007). Λόγω του ότι η DC-SIS παρουσιάζει παρόμοια προβλήματα με την SIS, οι Zhong και Zhu (2015) πρότειναν μια επαναληπτική DC-SIS την Iterative DC-SIS που προσπαθεί να λύσει τέτοιου είδους προβλήματα. Οι Wang και Leng (2015) πρότεινα την μέθοδο προβολής κανονικών ελάχιστων τετραγώνων σε υψηλής διάστασης δεδομένα (High Dimensional Ordinary Least Square Screening (HOLP)) η οποία δεν ασχολείται με τη συσχέτιση μεταβλητών όπως οι προηγούμενες μέθοδοι. Στην παρούσα διπλωματική εργασία ασχολούμαστε κυρίως με μεθόδους κρησαρίσματος καθώς και με την επιλογή μεταβλητών χρησιμοποιώντας ποινικοποιημένες μεθόδους. Πιο συγκεκριμένα, στο πρώτο κεφάλαιο γίνεται αναφορά στο γενικό γραμμικό μοντέλο και στις βασικές τεχνικές εκτίμησης παραμέτρων καθώς επίσης και στις μεθόδους επιλογής μεταβλητών και εκτίμησης παραμέτρων που βασίζονται στη εισαγωγή μιας συνάρτησης ποινής στην μέθοδο ελάχιστων τετραγώνων. Το κεφάλαιο 2 εισαγάγει τις έννοιες δεδομένων υψηλής διάστασης και σίγουρου κρησαρίσματος και εξετάζει εκτενώς τις μεθόδους SIS και Iterative-SIS. Στο κεφάλαιο 3 παρουσιάζεται η μέθοδος σίγουρου κρησαρίσματος προβολή κανονικών ελάχιστων τετραγώνων σε υψηλής διάστασης δεδομένα (High Dimensional Ordinary Least Square Screening (HOLP)). Το τέταρτο κεφάλαιο παρουσιάζει συνοπτικά την συσχέτιση της απόσταση μεταβλητών (Distance Correlation) και ασχολείται με τις μεθόδους DC-SIS και DC-ISIS. Στο κεφάλαιο 5 γίνονται αριθμητικές συγκρίσεις μεταξύ των μεθόδων κρησαρίσματος, με την βοήθεια του στατιστικού πακέτου R. | el |
heal.abstract | High dimensional statistical problems arise from diverse fields of scientific research and technological development. Feature screening and feature selection play a pivotal role in contemporary statistical learning and scientific discoveries. Feature screening refers to the procedure of screening potential explanatory variables in high dimension data so as to reduce their numbers significantly, without leaving the model’s really important variables out. Paying a closer attention to this term, one can see that a successful feature screening is a great achievement since it drastically simplifies the data analysis making classical statistical methods that failed once before, to be used now. Therefore, the choice of characteristics becomes possible, easier and more accurate. The first method was introduced in an article by Fan and Li (2008), titled as Sure Independence Screening (SIS). This method is based on correlation learning. In the same article, an iterative form of SIS was suggested, which was called Iterative Sure Independence Screening (ISIS). This particular method was introduced in order to deal with some problems which derived from the first model (SIS). In another article, Li, Zhong and Zhu (2012) suggested an alternative method of feature screening that of Distance Correlation-based Sure Independence Screening (DC-SIS), which was based on distance correlation learning consisting of a new kind of distance correlation variables which was suggested by Szekely, Rizzo and Bakirov (2007). powever, DC-SIS dealt with some similar problems as SIS, therefore Zhong and Zhu (2015) suggested Iterative DC-SIS, in order to solve these kinds of problems. Wang and Leng (2015) suggested another method called High Dimensional Ordinary Least Square Screening (HOLP), which does not deal with variable correlation like the previously mentioned methods. This particular paper mainly deals with various methods of feature screening but also with variable selection using penalised methods. More specifically, the first chapter not only makes some references to the general linear model and basic techniques in parameter estimation, but it also refers to methods of choosing and estimates different variables which are based on the introduction of one penalty function to the least square method. Chapter two introduces the meaning of high dimensional data and sure screening και thoroughly examines the screening methods SIS και Iterative-SIS. Chapter three presents one new sure screening method, the High Dimensional Ordinary Least Square Screening (HOLP). The fourth chapter briefly presents Distance Correlation and deals with the DC-SIS και DC-ISIS methods. In the fifth chapter and final chapter of this paper numerical comparisons are presented between the screening methods with the help of the statistical package R. | en |
heal.advisorName | Κουκουβίνος, Χρήστος | el |
heal.committeeMemberName | Καρώνη-Ρίτσαρντσον, Χρυσηίς | el |
heal.committeeMemberName | Βόντα, Φιλία | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 92 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: