Σε πολλές επιστήμες είναι επιτακτική η ανάγκη δημιουργίας στατιστικών μοντέλων,
δηλαδή μοντέλων που να αποδίδουν και να περιγράφουν τη σχέση εξάρτησης μεταξύ
μεταβλητών. Φυσικά, αναφερόμαστε σε μια σχέση στοχαστική, δηλαδή υπάρχει ένα
ποσοστό αβεβαιότητας το οποίο ενσωματώνεται στη σχέση μεταξύ των μεταβλητών
με την έννοια των «τυχαίων σφαλμάτων». Για το σκοπό αυτό έχουν αναπτυχθεί τα
μοντέλα παλινδρόμησης, τα οποία αποτελούν βασικό εργαλείο για την ανάλυση
δεδομένων, που προκύπτουν από την μελέτη στοχαστικών φαινομένων.
Στην παρούσα διπλωματική αναλύεται η θεωρία των γενικευμένων γραμμικών
μοντέλων παλινδρόμησης και γίνεται εφαρμογή σε πραγματικά δεδομένα με τη
βοήθεια του στατιστικού πακέτου της R.
Στο πρώτο κεφάλαιο, γίνεται μία εισαγωγή στα γενικευμένα γραμμικά μοντέλα και
παρουσιάζεται η δομή ενός γενικευμένου γραμμικού μοντέλου, καθώς και κάποια
εισαγωγικά στοιχεία για την Εκθετική Οικογένεια Kατανομών. Επιπλέον,
παρουσιάζεται η διαδικασία προσαρμογής του μοντέλου με τη μέθοδο μέγιστης
πιθανοφάνειας και με την Quasi-πιθανοφάνεια και αναπτύσσονται οι απαιτούμενοι
έλεγχοι ισχύος προϋποθέσεων στα εν λόγω μοντέλα. Εν κατακλείδι, παρουσιάζονται
κριτήρια επιλογής και καταλληλότητας μοντέλων, καθώς και διαγνωστικές μέθοδοι.
Στο δεύτερο κεφάλαιο, αναλύονται κάποιες κατηγορίες μοντέλων για δίτιμα ή
διωνυμικά δεδομένα. Ειδικότερα, παρουσιάζεται εκτενώς το μοντέλο της λογιστικής
παλινδρόμησης και ακολούθως το μοντέλο probit και το μοντέλο complementary loglog.
Στο τρίτο κεφάλαιο, παρουσιάζεται η δομή και η θεωρία μοντέλων τύπου λογιστικής
παλινδρόμησης για κατηγορικές μεταβλητές απόκρισης με περισσότερες από δύο
κατηγορίες. Αρχικά, παρουσιάζεται το πολυωνυμικό μοντέλο για κατηγορικές
μεταβλητές που δεν υποδηλώνουν κάποια διάταξη και στη συνέχεια αναπτύσσονται
κάποια μοντέλα για μεταβλητές διάταξης. Αυτά είναι το λογιστικό μοντέλο των
διαδοχικών κατηγοριών, το λογιστικό μοντέλο των συνεχιζόμενων λόγων και το
μοντέλο των αναλογικών συμπληρωματικών πιθανοτήτων.
Στο τέταρτο καφάλαιο, παρουσιάζονται κατάλληλα μοντέλα για την περίπτωση των
διακριτών δεδομένων. Δίνεται έμφαση στο μοντέλο της παλινδρόμησης Poisson και
γίνεται αναφορά στο μοντέλο της αρνητικής διωνυμικής κατανομής.
Στο πέμπτο κεφάλαιο, γίνεται μία εισαγωγή στο στατιστικό πακέτο R και αναλύονται
οι εντολές και οι συναρτήσεις της R, που χρησιμοποιούνται για την ανάλυση των
γενικευμένων γραμμικών μοντέλων. Στο έκτο κεφάλαιο, με τη βοήθεια της R,
παρουσιάζονται κάποιες εφαρμογές μοντέλων παλινδρόμησης με πραγματικά
δεδομένα. Συγκεκριμένα, αναλύεται μία εφαρμογή στην παλινδρόμηση Poisson και
γίνεται μία σύγκριση με το μοντέλο της αρνητικής διωνυμικής κατανομής και μία
εφαρμογή με δίτιμη μεταβλητή απόκρισης.
At a wide variety of scientific disciplines, it is imperative to create statistical models,
i.e. models to deliver and describe the relationship of dependence between variables.
As a result, we refer to a stochastic relationship, i.e. there is a percentage of
uncertainty which is incorporated into the relationship between the variables with the
meaning of “random errors”. For this reason, regression models have been developed,
as an essential tool for the analysis of data, resulting from the study of stochastic
phenomena.
In this dissertation, the theory of generalized linear regression models is analyzed and
applications are provided using real data with the statistical package R.
The first chapter contains an introduction of generalized linear models and its basic
structure, as well as some introductory information for the Exponential Family of
Distributions. In addition, the goodness of model fit is access using the maximum
likelihood methods and the Quasi-likelihood methods and the necessary statistical
hypothesis tests are analyzed. In conclusion, diagnostic methods are presented.
The second chapter deals with models for binary or binomial data. In particular, the
logistic regression model and furthermore the probit model and complementary loglog
model are extensively presented.
The third chapter, discusses the structure and the theory of several types of logistic
regression for multi-categorical response variables. Initially, the multinomial model
for nominal responses is presented and then some models for ordinal responses are
demonstrated. These are the adjacent categories logit model, the continuation ratio
logit model and the proportional odds model.
In the fourth chapter, appropriate models in the case of discrete data are discussed.
Emphasis is given for the Poisson regression model and the Negative Binomial
model.
The fifth chapter provides some applications of generalized linear models to the
statistical package R and analyze the commands and functions in R, used for the
analysis of these models. The sixth chapter provides applications to the models
discussed earlier using real data sets and R. In particular, using count response data
both the Poisson and the Negative Binomial models are fitted and their fit is been
compared. Furthermore, an application to binary response data using different link
functions is discussed and a comparison of these different models is made.