Η μέθοδος LASSO στην γραμμική παλινδρόμηση και γενικεύσεις

Αγγελακόπουλος, Χαράλαμπος

dc.contributor.author	Αγγελακόπουλος, Χαράλαμπος	el
dc.date.accessioned	2020-12-02T07:31:22Z
dc.date.available	2020-12-02T07:31:22Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52140
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.19838
dc.rights	Default License
dc.subject	Στατιστική	el
dc.subject	Ανάλυση παλινδρόμησης	el
dc.subject	Λασσο	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Τεχνικές συρρίκνωσης	el
dc.subject	Lasso	en
dc.subject	Regression analysis	el
dc.subject	Machine learning	en
dc.subject	R	en
dc.subject	Statistics	en
dc.title	Η μέθοδος LASSO στην γραμμική παλινδρόμηση και γενικεύσεις	el
heal.type	bachelorThesis
heal.classification	Μαθηματικά-Στατιστική	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-09-15
heal.abstract	Η παρούσα διπλωματική εργασία αφορά τη μέθοδο Lasso στη γραμμική παλινδρόμηση καθώς και ορισμένες γενικεύσεις αυτής. Στα προβλήματα που θα μελετήσουμε, θεωρούμε την εξάρτηση μιας μεταβλητής απόκρισης από κάποιες άλλες επεξηγηματικές μεταβλητές. Το γενικό πλαίσιο αφορά ένα δείγμα που αποτελείται από N παρατηρήσεις καιpπαράγοντες. Με βάση το δείγμα αυτό και με χρήση ορισμένων μεθόδων, θέλουμε να κατασκευάσουμε ένα γραμμικό μοντέλο που θα περιγράφει τη σχέση μεταξύ της μεταβλητής απόκρισης και των επεξηγηματικών μεταβλητών. Το κριτήριο για την επιλογή του «βέλτιστου» μοντέλου συχνά είναι υποκειμενικό. Σίγουρα όμως μας ενδιαφέρει το μοντέλο μας να έχει όσο το δυνατόν υψηλότερη ακρίβεια στις προβλέψεις για την εξαρτημένη μεταβλητή, κυρίως για δεδομένα που δεν ανήκουν στο σύνολο που διαθέτουμε (π.χ. μελλοντικά δεδομένα). Επίσης, είναι προτιμότερο το μοντέλο που θα επιλέξουμε να είναι όσο το δυνατόν πιο φειδωλό, δηλαδή να περιέχει μόνο τις μεταβλητές εκείνες που συνεισφέρουν πραγματικά στην ερμηνεία της μεταβλητής που μελετάμε. Επομένως, πιο απλά μοντέλα μας βοηθούν στην καλύτερη ερμηνεία και σε μείωση του κόστους και του χρόνου, εφόσον δε χρειάζεται να κάνουμε περιττές μετρήσεις για επιπλέον παράγοντες που δε συνεισφέρουν στο μοντέλο. Ειδικότερα σε προβλήματα όπου ο αριθμός των παραγόντων είναι αρκετά μεγαλύτερος από το πλήθος των παρατηρήσεων που διαθέτουμε (large p, small N problems), θεωρούμε ότι σημαντικό ρόλο θα παίζουν μόνο ορισμένοι παράγοντες. Επομένως είναι επιτακτική η ανάγκη για τη χρήση μεθόδων που παράγουν αραιά (sparse) αλλά ταυτόχρονα και ακριβή μοντέλα. Οι μέθοδοι συρρίκνωσης χρησιμοποιούνται ευρέως σε τέτοιου είδους προβλήματα και η μέθοδος Lasso είναι μία από τις κυριότερες. Στο πρώτο Κεφάλαιο της εργασίας αυτής θα αναλύσουμε τη μέθοδο Lasso για τα γραμμικά μοντέλα και θα δούμε πως αυτή μπορεί να χρησιμοποιηθεί ως μια εναλλακτική προσέγγιση της μεθόδου ελαχίστων τετραγώνων, στο πρόβλημα προσαρμογής ενός γραμμικού μοντέλου. Επίσης, από τη σύγκριση με τη μέθοδο Ridge, θα δούμε γιατί η μέθοδος Lasso έχει την ιδιότητα να παράγει αραιά μοντέλα. Στο Κεφάλαιο 2 παρουσιάζουμε κάποιες γενικεύσεις και επεκτάσεις της μεθόδου Lasso,όπως είναι οι Elastic Net, Group Lasso κ.α. Αυτές οι μέθοδοι βελτιώνουν τη μέθοδο Lasso, σε περιπτώσεις όπου υπάρχει υψηλή συσχέτιση μεταξύ των επεξηγηματικών μεταβλητών (φαινόμενο πολυσυγγραμμικότητας) ή όταν αυτές μπορούν με κάποιο τρόπο να δομηθούν σε ομάδες (π.χ. κατηγορικές μεταβλητές). Στο Κεφάλαιο 3 κάνουμε μια εισαγωγή στη στατιστική συμπερασματολογία για τις εκτιμήτριες που προκύπτουν με βάση τις μεθόδους συρρίκνωσης που έχουμε αναπτύξει. Θεωρούμε την Μπεϋζιανή προσέγγιση των μεθόδων Lasso και Ridge. Επίσης, εξετάζουμε πως με τη χρήση μεθόδων επαναδειγματοληψίας, όπως η Bootstrap, μπορούμε να εξάγουμε συμπεράσματα για τις εκτιμήτριες του μοντέλου μας. Στο τέταρτο και τελευταίο Κεφάλαιο εφαρμόζουμε ορισμένες από τις τεχνικές συρρίκνωσης, πάνω σε ένα πραγματικό σύνολο δεδομένων. Κατασκευάζουμε ένα γραμμικό μοντέλο με σκοπό την πρόβλεψη του αριθμού θανάτων που οφείλονται στη νόσο του καρκίνου σε διάφορες κομητείες των Η.Π.Α. Επίσης, αξιολογούμε το μοντέλο μας χρησιμοποιώντας τεχνικές όπως Cross Validation και τέλος παρουσιάζουμε κάποια συμπεράσματα. Μεγάλο μέρος της εργασίας περιλαμβάνει εφαρμογές, όπως προσομοιώσεις μαζί με αντίστοιχα διαγράμματα και σχήματα. Για όλες τις εφαρμογές έγινε χρήση του στατιστικού πακέτου R και όλοι οι κώδικες και τα διαγράμματα βρίσκονται στις αντίστοιχες ενότητες.	el
heal.abstract	The present thesis deals with the Lasso method in linear regression, as well as some of its generalizations. In the problems that we study, we consider the dependence of a response variable on some other explanatory variables. The general setup refers to a sample consisting of N observations and p factors. Based on this sample and the use of certain methods, we want to construct a linear model that describes the relationship between the response variable and the explanatory variables. The criterion for choosing the “optimal” model is often subjective. But we certainly want our model to have the best possible accuracy in predicting the dependent variable, especially for data that does not belong to the set that we have (e.g. future data). Also, it is preferable for the model we choose to be as sparse as possible, that is to contain only those variables that really contribute to the interpretation of the variable we are studying. Therefore, simpler models help us better interpret and reduce costs and time, as long as we do not need to make unnecessary measurements for additional factors that do not contribute to the model. Particularly, in problems where the number of factors is much larger than the numberof observations we have (large p, small N problems), we believe that only certain factors will play an important role. Therefore, the need for the use of methods that produce sparse and also accurate models, is imperative. Shrinkage methods are widely used in such problems and the Lasso is one of the main ones. In the first Chapter of this thesis, we will analyze the Lasso method for linear models and we will see how it can be used as an alternative approach to the least squares method, in the problem offitting a linear model. Also, from the comparison with Ridge regression we will see why Lasso has the property of producing sparse models. In Chapter 2 we present some generalizations and extensions of the Lasso, such as Elastic Net, Group Lasso etc. These methods improve the Lasso in cases where there is a high correlation between the explanatory variables (multicollinearity issues) or they can somehow be structured into groups (e.g. categorical variables). In Chapter 3 we make an introduction to statistical inference for the estimators that result on the shrinkage methods we have developed. We consider the Bayesian approach to Lasso and Ridge. We also look at how we can draw conclusions about our model’s estimates by using re-sampling methods, such as Bootstrap. In the fourth and last Chapter we apply some of the shrinkage techniques, to a real data set. We are building a linear model to predict the number of deathsdue to cancer in various U.S counties. We also evaluate our model using techniques such as Cross Validation and finally present some conclusions. Much of this thesis includes simulations along with corresponding diagrams. For all the applications we used the R statistical software and all the codes and diagrams are in the respective sections.	en
heal.advisorName	Φουσκάκης, Δημήτριος	el
heal.committeeMemberName	Λουλάκης, Μιχαήλ	el
heal.committeeMemberName	Παπαπαντολέων, Αντώνιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών	el
heal.academicPublisherID	ntua
heal.numberOfPages	88 p.	en
heal.fullTextAvailability	false