Τα τελευταία χρόνια έχουν αναπτυχθεί διάφορες τεχνικές και μέθοδοι, αλλά βελτιώθηκαν και κάποια κριτήρια επιλογής του βέλτιστου στατιστικού μοντέλου. Σκοπός τους είναι η επιλογή των μεταβλητών 𝑥 που επηρεάζουν σημαντικά τη μεταβλητή απόκρισης 𝑦, μέσα από ένα σύνολο δεδομένων.
Στην παρούσα εργασία παρουσιάζουμε διάφορες τεχνικές, μεθόδους, ελέγχους αλλά και κριτήρια επιλογής για να καταλήξουμε στο βέλτιστο μοντέλο. Έμφαση δίνεται στις δύο μεθόδους με ποινή (L1 και L2 penalized) που βελτιώθηκαν τα τελευταία χρόνια και οι οποίες βασίζονται στην εισαγωγή μίας συνάρτησης ποινής στην πιθανοφάνεια. Ειδικότερα, οι συναρτήσεις ποινής που εξετάζουμε, η Lasso και η Ridge regression, βασίζονται στη συσχέτιση μεταξύ των μεταβλητών και μας δίνουν καλύτερα αποτελέσματα, καθώς αντιμετωπίζουν το φαινόμενο της πολυσυγγραμμικότητας.
Η επιλογή του μοντέλου γίνεται στο γενικό γραμμικό μοντέλο, στο μοντέλο λογιστικής παλινδρόμησης και στο μοντέλο αναλογικής διακινδύνευσης του Cox, με τη βοήθεια του στατιστικού πακέτου της R, χρησιμοποιώντας τις διάφορες μεθόδους, τεχνικές και κριτήρια, με διάφορες προσαρμογές σε πραγματικά δεδομένα.
Στο πρώτο κεφάλαιο, γίνεται μία εισαγωγή στο γενικό γραμμικό μοντέλο και στη βασική μέθοδο εκτίμησης των παραμέτρων με τη χρήση της μέγιστης πιθανοφάνειας. Επίσης, παρουσιάζονται οι τρεις διαδικασίες επιλογής μοντέλου με βήματα με τη βοήθεια κάποιου κριτηρίου, αλλά και τα σημαντικότερα μέτρα καταλληλότητας που χρησιμοποιούνται στο γενικό γραμμικό μοντέλο. Ακόμα, παρουσιάζονται οι τεχνικές L1 και L2 με ποινή. Το κεφάλαιο κλείνει με μια εφαρμογή στο γενικό γραμμικό μοντέλο με τη βοήθεια του στατιστικού πακέτου της R, με πραγματικά δεδομένα.
Στο δεύτερο κεφάλαιο, παρουσιάζεται εκτενώς η λογιστική παλινδρόμηση με κάποια εισαγωγικά στοιχεία για τα γενικευμένα γραμμικά μοντέλα. Όμως δίνεται έμφαση στους ελέγχους επιλογής του βέλτιστου μοντέλου, καθώς και στα κριτήρια επιλογής στα γενικευμένα γραμμικά μοντέλα, ιδιαίτερα στο μοντέλο λογιστικής παλινδρόμησης. Εδώ κλείνει το κεφάλαιο με εφαρμογή στη λογιστική παλινδρόμηση με τη βοήθεια της R με πραγματικά δεδομένα. Σημαντική παρατήρηση στην εφαρμογή εδώ είναι η χρήση του πακέτου glmulti, για την επιλογή των σημαντικότερων μεταβλητών.
Τέλος, στο τρίτο κεφάλαιο, γίνεται αναφορά στα μοντέλα επιβίωσης και ιδιαίτερα στο μοντέλο αναλογικής διακινδύνευσης του Cox. Παρουσιάζονται οι ελέγχοι υποθέσεων για την επιλογή του βέλτιστου μοντέλου, οι τεχνικές L1 και L2 με ποινή, καθώς και κάποια κριτήρια επιλογής στο μοντέλο του Cox. Και εδώ κλείνει το κεφάλαιο με εφαρμογή στο συγκεκριμένο μοντέλο με τη βοήθεια της R, για την επιλογή του «καλύτερου» μοντέλου σε πραγματικά δεδομένα.
Ιn recent years, several techniques and methods for selecting variables in statistical models have been developed and some selection criteria have been improved. Their aim is to identify those variables 𝑥 that significantly affect the response 𝑦 in a set of data.
In this thesis, we discuss various techniques, penalized methods, tests and selection criteria to find the optimal model. Emphasis is on two penalized methods (L1 and L2 penalized), the Lasso and Ridge regression, which are based on two penalty terms that are imposed on the likelihood function. In particular, the penalty terms that we consider are based on the correlation between the explanatory variables, and give better results as they handle the problem of multicollinearity.
The choice of the best model is studied in the general linear model, the logistic regression model and Cox’s proportional hazards model, using various methods, techniques and selection criteria applied to real data sets using the R statistical package.
The first chapter contains an introduction to the general linear model and the basic method of parameter estimation using maximum likelihood. It also presents the three stepwise procedures of model selection and the most important measures of suitability used in the general linear model. Furthermore, the L1 and L2 penalized methods are presented. The chapter ends with an application of the general linear model to real data using the statistical package R.
The second chapter presents the generalized linear model and logistic regression, with emphasis on tests for the best model and the selection criteria in generalized linear models, particularly in logistic regression models. R is used to apply logistic regression to a real data set, employing the glmulti package for the selection of the statistically important variables.
Finally, in the third chapter, survival models are presented, specifically Cox’s proportional hazards model. Hypothesis testing for the selection of the optimal model and the selection criteria in this context are presented. The L1 and L2 penalized methods for this model are also presented. The chapter closes with an application to the selection of the "best" Cox model in a real data set, using the R package.