Κατά την ανάλυση δεδομένων στην Κλασική Στατιστική, συνηθίζεται να επιλέγουμε με βάση κάποια κριτήρια ένα συγκεκριμένο μοντέλο μίας κλάσης και ακολούθως να δρούμε σαν αυτό το μοντέλο να παρήγαγε όντως τα δεδομένα.
Η τακτική αυτή αγνοεί την αβεβαιότητα κατά την επιλογή μοντέλου, έναν παράγοντα που αποτελεί μεγάλο ποσοστό της συνολικής αβεβαιότητάς μας για το εκάστοτε πρόβλημα. Η Μπεϋζιανή μέθοδος των κυρτών συνδυασμών μοντέλων επιχειρεί να δώσει μία λύση χρησιμοποιώντας έναν μέσο όρο από όλα τα πιθανά μοντέλα που θεωρούμε για το πρόβλημά μας, εισάγοντας ως βάρη τις ύστερες πιθανότητές τους.
Η παραπάνω μέθοδος και ιδιαίτερα η εφαρμογή της σε γενικευμένα γραμμικά μοντέλα αποτελεί το αντικείμενο αυτής της εργασίας. Σκοπός μας είναι να παρουσιάσουμε τις βασικές πτυχές της μεθόδου και να αναπτύξουμε τα πλεονεκτήματα που μπορούμε να έχουμε με τη χρήση της, έναντι μίας ανάλυσης που δεν χρησιμοποιεί τη μέθοδο.
Το πρώτο κεφάλαιο είναι εισαγωγικό και περιλαμβάνει τις βασικές έννοιες της Μπεϋζιανής μεθοδολογίας και των τεχνικών MCMC. Οι έννοιες αυτές παρουσιάζονται συνοπτικά, με σκοπό να δώσουν το πλαίσιο στο οποίο θα κινηθούμε στα επόμενα κεφάλαια.
Στο δεύτερο κεφάλαιο, ξεκινούμε με την περιγραφή της μεθόδου των κυρτών συνδυασμών μοντέλων στη γενική της μορφή, δηλαδή για μία οποιαδήποτε κλάση μοντέλων. Αναφέρουμε τις δυσκολίες που πρέπει να ξεπεράσουμε για να θέσουμε τη μέθοδο σε εφαρμογή, παρουσιάζοντας διάφορες λύσεις που έχουν προταθεί για κάθε μία από αυτές τις δυσκολίες. Ιδιαίτερη αναφορά γίνεται στην προβλεπτική ικανότητα της μεθόδου, η οποία αποτελεί ένα από τα βασικά πλεονεκτήματά της.
Στο τρίτο κεφάλαιο εστιάζουμε στην εφαρμογή της μεθόδου στα γενικευμένα γραμμικά μοντέλα. Μετά από μία μικρή περιγραφή της συγκεκριμένης κλάσης μοντέλων, βλέπουμε ποιές είναι οι ποσότητες που καλούμαστε να εκτιμήσουμε και πώς εξειδικεύονται οι τεχνικές που είδαμε στο προηγούμενο κεφάλαιο στη συγκεκριμένη περίπτωση. Επιπλέον, παρουσιάζουμε τα αναλυτικά αποτελέσματα που μπορούμε να πάρουμε στην περίπτωση της γραμμικής παλινδρόμησης χρησιμοποιώντας συζυγείς πρότερες κατανομές.
Τέλος, στο τέταρτο κεφάλαιο κάνουμε ανάλυση σε συγκεκριμένα δεδομένα, τα οποία αφορούν την εμφάνιση στεφανιαίου επεισοδίου σε άντρες με βάση πέντε επεξηγηματικές μεταβλητές. Γίνεται ανάλυση με και χωρίς την μέθοδο των κυρτών συνδυασμών μοντέλων και ακολούθως συγκρίνουμε τα συμπεράσματα που προκύπτουν στις δύο περιπτώσεις. Η ανάλυση γίνεται με τη βοήθεια της R, και συγκεκριμένα με τις συναρτήσεις glm και bic.glm. Και εδώ γίνεται ειδική αναφορά στην προβλεπτική ικανότητα της μεθόδου.
Λέξεις και φράσεις - κλειδιά: Κυρτοί συνδυασμοί μοντέλων, προβλεπτική ικανότητα, γενικευμένα γραμμικά μοντέλα
Frequentist data analysis typically involves the selection of a specific model from some class of models and then proceeding as if this model had really generated the data.
This practice completely ignores model uncertainty, which is an important part of the total uncertainty of the problem. Bayesian model averaging tries to give a solution by using an average of all the possible models, instead of using one single model.
This method and especially its application to generalized linear models is the object of this study. Our aim is to present the main characteristics of the method and its advantages over the analysis with one model.
The first chapter includes the main principles of the Bayesian inference, as well as the main MCMC algorithms.
In the second chapter, we present Bayesian model averaging in its general form. We discuss the difficulties of the method and some ways to overcome them. We also discuss the better predictive performance of the method, which is one of its biggest advantages.
In the third chapter, we focus on the application of the method to generalized linear models. We present the techniques of the previous chapter specifically for this class of models and we also give some analytical results for linear regression.
Finally, the fourth chapter includes a real dataset example. We consider the occurrence of a coronary incident as the response variable, using five prognostic factors. We proceed to data analysis with one single model and then with Bayesian model averaging and we compare the results. For the analysis with BMA we use the function bic.glm of R.
Key words and phrases: Bayesian model averaging, predictive performance, generalized linear models