Μια κατανομή που βρίσκει μεγάλη εφαρμογή σε στατιστικά μοντέλα για την ανάλυση δεδομένων διάρκειας ζωής είναι η αντίστροφη Γκαουσιανή κατανομή (Inverse Gaussian - IG). Ένας σημαντικός λόγος για το εύρος των εφαρμογών της αποτελεί το γεγονός ότι προκύπτει ως κατανομή του χρόνου 1ης μετάβασης σε ανέλιξη Wiener στην παλινδρόμηση Κατωφλιού (Threshold regression ή First Hitting Time – FHT-regression). Βασικό στόχο της διδακτορικής διατριβής αποτελεί η συμβολή στην περαιτέρω ανάπτυξη του θεωρητικού υποβάθρου της παλινδρόμησης Κατωφλιού.
Αρχικά, γίνεται μία εκτενής μελέτη της αντίστροφης Γκαουσιανής κατανομής (IG distribution) και μελετώνται γενικές ιδιότητες της κατανομής που τη συμπεριλαμβάνουν ως γενικευμένο γραμμικό μοντέλο. Το γενικευμένο γραμμικό μοντέλο (GLM) παρουσιάστηκε από τους Nelder and Wedderburn (1972) και αποτελεί μία ενοποίηση γραμμικών και μη γραμμικών μοντέλων παλινδρόμησης, τα οποία επιτρέπουν στον πειραματιστή να διαλέξει για τη μεταβλητή απόκρισης μία κατανομή που είναι μέλος της εκθετικής οικογένειας κατανομών. Η Κανονική, η Διωνυμική, η Εκθετική και η αντίστροφη Γκαουσιανή κατανομή είναι μεταξύ άλλων, κάποιες από τις κατανομές αυτής της οικογένειας. Η αντίστροφη Γκαουσιανή κατανομή είναι το πιο σπάνια χρησιμοποιούμενο γενικευμένο γραμμικό μοντέλο.
Η IG ανήκει στην εκθετική οικογένεια κατανομών τάξης 2. Σε αυτή, συναντώνται οι εξής τέσσερις συναρτήσεις σύνδεσης: α) η κανονική, β) η αντίστροφη, γ) η ταυτοτική και δ) η λογαριθμική. Σε κάποιες περιπτώσεις, η κανονική συνάρτηση μπορεί να επιλεχθεί εκ των προτέρων, συνήθως για ευκολία στην ερμηνεία. Η χρήση της κανονικής συνάρτησης σύνδεσης σε ένα GLM προσφέρει μερικά τεχνικά πλεονεκτήματα αλλά δεν είναι απαραίτητη, π.χ. η παλινδρόμηση Poisson δε γίνεται υποχρεωτικά με τη λογαριθμική συνάρτηση. Για κάποιες περιπτώσεις όμως, μπορεί να μην είναι προφανής η επιλογή της κατάλληλης συνάρτησης σύνδεσης.
Στηριζόμενοι στο έργο των Myers and Montgomery (1997), αλλά και στους Lewis et al. (2001a και 2001b), μελετούμε την επίδραση που έχει μία λανθασμένη επιλογής συνάρτησης σύνδεσης στις εκτιμήσεις της κάλυψης και της ακρίβειας (μήκος) ενός διαστήματος εμπιστοσύνης για την παράμετρο της μέσης τιμής της IG κατανομής. Τελικά, συμπεραίνουμε με τη βοήθεια προσομοιώσεων πως σε ένα IG GLM μεγάλο ρόλο κατέχει η επιλογή της κατάλληλης συνάρτησης σύνδεσης, ιδιαίτερα όταν αυτή δεν είναι η κανονική.
Στη συνέχεια μελετούμε τα διάφορα υπόλοιπα που μπορούν να χρησιμοποιηθούν για την IG κατανομή. Τα υπόλοιπα κατέχουν κεντρικό ρόλο στην προσαρμογή του γενικού γραμμικού μοντέλου και χρησιμοποιούνται ευρύτατα για την αξιολόγηση της καταλληλότητας όχι μόνο των γενικευμένων γραμμικών μοντέλων (McCullagh and Nelder, 1989), αλλά και των μοντέλων PH, AL και PO (Collett, 2003). Κατά τη διάρκεια της διατριβής μελετώνται τα διάφορα διαθέσιμα υπόλοιπα για την κατανομή IG και κατασκευάστηκαν αλγόριθμοι για την παραγωγή τους μέσω της R. Ειδικότερα, διερευνάται η σχέση μεταξύ των Pearson, Anscombe και Deviance υπολοίπων. Αποδεικνύεται πως σε ειδικές περιπτώσεις τα Anscombe και τα Deviance έχουν πολύ κοντινές τιμές στην IG. Τα διάφορα ευρήματα καταγράφονται τόσο θεωρητικά όσο και με τη βοήθεια προσομοιώσεων που έγιναν στην R.
Όπως και σε όλα τα στατιστικά μοντέλα, είναι σημαντικός ο εντοπισμός άτυπων σημείων (outliers), δεδομένων με ασυνήθιστα διαφορετικές τιμές και συμπεριφορά από τα υπόλοιπα, τα οποία ενδεχομένως έχουν μεγάλη επιρροή στην προσαρμογή του μοντέλου. Για το λόγο αυτό, έχουν αναπτυχθεί έλεγχοι εντοπισμού άτυπων σημείων για πολλές κατανομές. (Barnett and Lewis, 1994). Ωστόσο, δεν έχουν ακόμα αναπτυχθεί αντίστοιχες τεχνικές για την κατανομή IG. Βασισμένοι στο έργο των Chhikara και Folks (1989) και της Davis (1980), κατασκευάζουμε ελέγχους για τον εντοπισμό άτυπων τιμών των παραμέτρων (μ,λ) της IG σε δεδομένα ανεξάρτητων μονάδων με επαναλαμβανόμενα ανεξάρτητα γεγονότα ανά μονάδα. Οι διάφοροι έλεγχοι βασίζονται στη μεγιστοποίηση της τιμής του ελέγχου του λόγου των πιθανοφανειών για την ισότητα παραμέτρων, με διόρθωση Bonferroni για τις p-τιμές. Προσομοιώσεις γίνονται προκειμένου να επιβεβαιώσουμε την ακρίβεια των Bonferroni ελέγχων υπό τη μηδενική υπόθεση και να μελετήσουμε την ισχύ των ελέγχων υπό την εναλλακτική υπόθεση. Στη συνέχεια, χρησιμοποιείται μία εναλλακτική παραμέτρηση για τη συνάρτηση πυκνότητας πιθανότητας της IG, η οποία βρίσκεται σε αντιστοιχία με τις παραμέτρους (μ,λ) και είναι η παραμέτρηση της συνάρτησης πυκνότητας πιθανότητας του χρόνου πρώτης μετάβασης που ακολουθεί την IG και χρησιμοποιείται στην παλινδρόμηση Κατωφλιού.
Το ημι-παραμετρικό μοντέλο αναλογικής διακινδύνευσης (PH) του Cox είναι ευρέως διαδεδομένο σε εφαρμογές δεδομένων διάρκειας ζωής και αποτελεί συχνά την πρώτη επιλογή του πειραματιστή ως εργαλείο ανάλυσης της επιβίωσης. Ωστόσο, το συγκεκριμένο μοντέλο θέτει κάποιους περιορισμούς στην πιθανή μορφή της συνάρτησης διακινδύνευσης. Εναλλακτικά, όλο και περισσότερο έχουν αρχίσει να χρησιμοποιούνται μοντέλα βασισμένα στο χρόνο πρώτης διακοπής (FHT) μίας στοχαστικής ανέλιξης. Στη διατριβή συγκρίνουμε το μοντέλο του Cox και ένα μοντέλο FHT παλινδρόμησης βασισμένο σε ανέλιξη Wiener, το οποίο οδηγεί σε χρόνο πρώτης διακοπής που ακολουθεί την IG κατανομή.
Διαγνωστικές τεχνικές αναπτύσσονται για την καταλληλότητα του μοντέλου και γίνεται διερεύνηση πρακτικών θεμάτων στην προσαρμογή του μοντέλου παλινδρόμησης χρόνου πρώτης μετάβασης (IG FHTR). Στην παλινδρόμηση Κατωφλιού, μια συμμεταβλητή μπορεί να επηρεάζει τη διάρκεια ζωής με δύο τρόπους, και να υπάρχει ένας βαθμός μη αναγνωρισημότητας ή πολυσυγγραμικότητας στο μοντέλο. Η συχνή παρουσία αντιφατικών εκτιμήσεων των δύο επιδράσεων μιας συμμεταβλητής σε δημοσιευμένες εφαρμογές του FHT μοντέλου, μπορεί να αποτελεί επιβεβαίωση αυτής της δυσκολίας. Κατά τη διάρκεια της διατριβής γίνεται μία προσπάθεια να αποδοθούν εμπειρικές αποδείξεις σχετικά με τη δυνατότητα προσαρμογής του μοντέλου. Ειδικότερα, εξετάζεται εάν υπάρχει κάποια ένδειξη κατά τη διαδικασία προσαρμογής να τοποθετεί μία μεταβλητή σε λάθος παράμετρο. Επιπρόσθετα, ερευνούμε το φαινόμενο εμφάνισης αντίθετων προσήμων μίας μεταβλητής στις διάφορες παραμέτρους της κατανομής.
Στη συνέχεια προτείνουμε μία διαδικασία επιλογής μεταβλητών για την περίπτωση του IG FHT μοντέλου παλινδρόμησης. Η ύπαρξη μίας τέτοιας διαδικασίας θεωρείται αναγκαία για την Ανάλυση Επιβίωσης, ιδιαίτερα σε ιατρικές εφαρμογές στις οποίες συνήθως υπάρχει ένας μεγάλος αριθμός διαθέσιμων υποψήφιων μεταβλητών για τις επιμέρους αναλύσεις. Η προτεινόμενη διαδικασία αποτελείται από δύο διαδοχικές εφαρμογές της προσαρμοσμένης LASSO τεχνικής (adaptive LASSO) εκτελεσμένες από έναν αλγόριθμο ελαχίστων τετραγώνων. Η διαδικασία αποδεικνύεται αποτελεσματική για την ορθή αναγνώριση των μη–μηδενικών (στατιστικά σημαντικών) συντελεστών της παλινδρόμησης. Η μελέτη αυτή αποτελεί την πρώτη συνδρομή στη μεθοδολογία μοντελοποίησης, η οποία είναι απαραίτητο να αναπτυχθεί περαιτέρω για το παρόν μοντέλο παλινδρόμησης.
Μετά τη μοντελοποίηση και τον εντοπισμό άτυπων τιμών, πολύ σημαντική για την Ανάλυση Επιβίωσης θεωρείται η αναγνώριση σημείων επιρροής κατά την προσαρμογή του μοντέλου. Με τον όρο επιρροή, εννοούμε την επίδραση της κάθε παρατήρησης στην προσαρμογή του μοντέλου. Στη βιβλιογραφία υπάρχει πληθώρα τεχνικών για την αναγνώριση σημείων επιρροής (Cook και Weisberg, 1982 και Therneau και Grambsch, 2000). Ωστόσο, δεν υπάρχει κάποια παρόμοια τεχνική για την παλινδρόμηση Κατωφλιού. Σκοπό αυτού του τμήματος της διατριβής αποτελεί η μελέτη και η ανάπτυξη μεθόδων για τον εντοπισμό σημείων επιρροής για την περίπτωση του IG FHT μοντέλου παλινδρόμησης. Αναπτύσσουμε μία μέθοδο βασισμένη στην τεχνική αφαίρεσης σημείου (Case Deletion Model - CDM), προκειμένου να μετρήσουμε την επιρροή της καθεμιάς παρατήρησης. Ακόμα, τα διάφορα στατιστικά μοντέλα συνήθως έχουν κάποιο βαθμό προσέγγισης, με αποτέλεσμα να είναι συνήθως λανθασμένα. Για το λόγο αυτό, η αξιολόγηση της επιρροής μικρών διαταραχών του μοντέλου είναι ιδιαίτερα σημαντική. Ο Cook (1986) ανέπτυξε μία τέτοια μέθοδο μέτρησης της τοπικής επιρροής, η οποία δεν περιορίζεται μόνο σε γραμμικά μοντέλα. Την τεχνική αυτή την επεκτείνουμε και την προσαρμόζουμε κατάλληλα για το FHT μοντέλο παλινδρόμησης. Η εγκυρότητα των διαφόρων θεωρητικών αποτελεσμάτων ελέγχεται με τη βοήθεια προσομοιώσεων.
Όλες οι μελέτες έγιναν με τη βοήθεια του στατιστικού πακέτου R, το οποίο έχει προγραμματιστικό περιβάλλον και είναι κατάλληλο για μελέτες με τη βοήθεια προσομοιώσεων. Επιπρόσθετα, χρησιμοποιήθηκε και πληθώρα στατιστικών πακέτων, όπως είναι τα SPSS, STATA, MINITAB, κυρίως για τις διάφορες εφαρμογές πραγματικών δεδομένων.
A distribution that is often applied in statistical models for lifetime data is the inverse Gaussian (IG). An important reason for the variety of its applications is that it arises as the distribution of the lifetime regarded as the first hitting time in a Wiener process in Threshold regression (First Hitting Time regression– FHT regression) (Lee and Whitmore, 2006). The main purpose of this thesis is to contribute to the development of the theoretical and mathematical framework of Threshold regression.
Firstly, we study in depth the inverse Gaussian distribution within the framework of generalized linear models (GLM). The GLM approach was first suggested by Nelder and Wedderburn (1972) and consists of a unification of linear and non-linear regression models, allowing the experimenter to select for the response variable a distribution which is a member of the exponential family. Normal, Binomial, Exponential and inverse Gaussian distributions are amongst the distributions of the exponential family. The inverse Gaussian distribution appears to be the most rarely used GLM. Two types of link functions exist in GLM: canonical and non-canonical. The canonical link is that function which equates the natural location parameter of the exponential family to the linear predictor. Four link functions can be used with the IG distribution: a) the canonical, b) the inverse, c) the identity and d) the logarithmic. Sometimes, the canonical link can be pre-selected, but the appropriate choice of the link function is not always obvious. Based on the work of Myers and Montgomery (1997) and Lewis et al. (2001a and 2001b), we investigate the impact of the choice of link function on the coverage and precision (length) of a confidence interval for the mean parameter μ of the IG distribution. We find that in an IG GLM, the correct choice of the appropriate link function is important, especially when it is not the canonical.
We study several types of residuals that can be used with the IG distribution. Residuals can be used to explore the adequacy of fit of a model, in respect of choice of variance function, link function and terms in the linear predictor. They may also be used to evaluate the appropriateness of the generalized linear models (McCullagh and Nelder, 1989) and of the proportional hazards, accelerated life and proportional odds models as well (Collett, 2003). For the purpose of this thesis, we study the various residuals that can be used with the IG and we construct algorithms to obtain them in R. More specifically, we study the relationship between Pearson, Anscombe and deviance residuals. It is proved that in special cases, Anscombe and deviance residuals have similar values in the case of IG. The various findings are presented not only theoretically but also through simulation studies using R.
Because it is important in practical data analysis to identify observations that seem to be inconsistent with the rest of the data, outlier tests have been developed for many statistical distributions (Barnett and Lewis, 1994). Outlier tests for the IG are not available in the literature, even though this distribution is widely used in statistical modelling and more specifically in the analysis of lifetime data. Based on the work of Chhikara and Folks (1977) and Davis (1980), we construct tests for outlying values of the parameters (μ, λ) of this distribution when data are available from a sample of independent units and possibly with more than one event per unit. These outlier tests are constructed from likelihood ratio tests for equality of parameters. Simulation studies are used to confirm that Bonferroni tests have accurate size and to examine the powers of the tests. When the IG arises in threshold regression as the lifetime distribution, we use an alternative parameterization. The application of the outlier tests to (x0,m) is shown.
Cox’s widely used semi-parametric proportional hazards regression places restrictions on the possible shapes of the hazard function, even though it is not modeled directly. Various authors, but particularly Aalen and Gjessing (2001), have promoted an alternative way of approaching Survival Analysis, instead of through the hazard rate. Models based on the first hitting time of a stochastic process are among the alternatives and have the attractive feature of being based on a model of the underlying process. We review and compare the PH model and an FHT model based on a Wiener process which leads to an inverse Gaussian regression model. This particular model can also represent a “cured fraction” or long-term survivors. A case study of survival after coronary artery bypass grafting is used to examine the interpretation of the IG model, especially in relation to covariates that affect both of its parameters.
We develop some diagnostic techniques for the appropriateness of the model and we investigate some practical matters that arise when fitting an IG FTHR model. Various authors have commented that dependence of both parameters on the same covariate may imply multicollinearity. The frequent appearance of conflicting signs for the two coefficients of the same covariate may be related to this. We carry out simulation studies to examine the reality of this possible multicollinearity. Although there is some dependence between estimates, multicollinearity does not seem to be a major problem. Moreover, we examine whether the phenomenon of the conflicting signs of estimates may be due to model misspecification.
We propose a procedure for variable selection in the IG FHT regression model for lifetime data. This procedure meets an important need because in many studies, particularly in the field of medical applications, a large number of covariates are available and should be considered for inclusion in the final model. It consists of two applications of the adaptive LASSO implemented by a least squares approximation. The procedure is shown to be effective in identifying correctly the non-zero regression coefficients. This is the first contribution to the model-building methodology that needs to be developed for this model.
After modelling, in addition to the detection of outliers, the identification of influential observations is an issue of extreme importance in Survival Analysis. By influence we mean the impact of each point on the fit of a model. A number of different techniques for investigating influence diagnostics exist in the literature (Cook and Weisberg, 1982; Therneau and Grambsch, 2000). However, there is no influence diagnostics method for FHTR models. The purpose of this part of the thesis is to develop and propose influence diagnostics for the IG FHTR model. We construct a case-deletion diagnostic method (CDM) for the case of a FHTR model, where lifetimes follow the IG. Finally, we use the local influence approach to develop influence measures for identifying observations that have a disproportionate effect on the maximum likelihood estimate of parameters in models for lifetime data. Cook (1986) proposed a method based on differential geometry to assess the local influence of minor perturbations that can be applied to a wide variety of statistical models. We extend this technique for the case of the IG FHTR model.
All studies were conducted in R, a statistical package with programming interface, which is appropriate for simulation studies. Several other statistical software packages, including SPSS, STATA and MINITAB were used for a number of applications that were carried out for the purposes of this thesis.