Ο σκοπός αυτής της διπλωματικής είναι η χρήση του AIC κριτηρίου για την επιλογή των σημαντικών μεταβλητών σε μοντέλα ευπάθειας για την περίπτωση των λογοκριμένων δεδομένων. Στο κεφάλαιο 1 γίνεται εκτενής αναφορά στο πιο σημαντικό και ευρέως χρησιμοποιούμενο μοντέλο στην ανάλυση επιβίωσης, που είναι το μοντέλο του Cox. Το μοντέλο αυτό χρησιμοποιείται για να ερμηνεύσει τη σχέση μεταξύ μιας μεταβλητής που περιγράφει το χρόνο επιβίωσης ενός ατόμου με άλλες συμμεταβλητές. Στο κεφάλαιο 2 το μοντέλο του Cox επεκτείνεται και δημιουργεί μια νέα ομάδα μοντέλων, τα μοντέλα ευπάθειας. Η ευπάθεια είναι μια θετική τυχαία μεταβλητή που υπεισέρχεται στο μοντέλο του Cox με σκοπό να εξηγήσει διαφοροποιήσεις στον πληθυσμό που το μοντέλο του Cox δεν καταφέρνει να εξηγήσει. Διαφορετικές δυνατές κατανομές της ευπάθειας έχουν σαν αποτέλεσμα τον ορισμό διαφόρων μοντέλων ευπάθειας. Περιγράφονται στο κεφάλαιο αυτό βασικές κατηγορίες και ιδιότητες των μοντέλων ευπάθειας. Στο κεφάλαιο 3 αναφέρονται τα πιο γνωστά και ευρέως χρησιμοποιούμενα κριτήρια επιλογής μοντέλων.
Στο τελευταίο κεφάλαιο χρησιμοποιώντας την γλώσσα προγραμματισμού R εξετάζουμε την αποτελεσματικότητα του κριτηρίου ΑΙC στην επιλογή των σημαντικών μεταβλητών, όταν η συνάρτηση επιβίωσης ορίζεται μέσω μιας κλάσης μοντέλων ευπάθειας και τα δεδομένα είναι λογοκριμένα από δεξιά. Η θεωρία στην οποία βασιστήκαμε αλλά και κατ’ επέκταση το πρόγραμμα, είναι έτσι σχεδιασμένα έτσι ώστε με μια μικρή αλλαγή ως προς την κατανομή της ευπάθειας που θέλουμε να υποθέσουμε να μπορούμε να χειριστούμε όλα τα δυνατά μοντέλα συνεχούς ευπάθειας. Τέτοια μοντέλα είναι το μοντέλο Gamma και Inverse Gaussian. Υπολογιστικά, ερχόμαστε να καλύψουμε κενά που παρουσιάζουν στατιστικά πακέτα όπως π.χ. η R στην οποία οι κατανομές ευπάθειας που μπορεί να υποθέσει κανείς σε συνδυασμό με κριτήρια επιλογής μοντέλων είναι περιορισμένες σε αριθμό. Τα αποτελέσματά μας περιγράφονται μέσω δεδομένων προσομοίωσης.
The purpose of this dissertation is the use the AIC criterion for the selection of the significant variables in frailty models for the case of right-censored data. Chapter 1 provides an extensive review of the most important and most widely used model in survival analysis, namely, the Cox model. The purpose of this model is to examine the relationship between the survival time of individuals and other covariates. In Chapter 2 we discuss the class of frailty models which are extensions of the Cox model. The frailty is a positive random variable that is included in the Cox model in order to explain heterogeneity in the population that the Cox model fails to explain. Different distributions of the frailty result in the creation of different frailty models. In the same chapter we describe the basic properties and categories of fraiity models. In Chapter 3, the most popular and most widely used model selection criteria are discussed.
In Chapter 4, using the language R, we examine the effectiveness of the AIC criterion in the selection of important variables, in the case where the survival function is defined by a class of frailty models and the data are censored from the right. The theory on which we have relied upon and consequently the code are designed in such a way, so that by a small change in the considered frailty distribution, all possible models of continuous frailty can be treated. Such models are the Gamma and Inverse Gaussian frailty models. Our code fills a gap in statistical packages like R in which the distributions of the frailty one can consider in conjunction with model selection criteria is limited in number. Our results are described through simulated data.