Στην παρούσα διπλωματική εργασία, η ανάπτυξη του προβλήματος επιλογής μοντέλου και μεταβλητών εξετάζεται από τη σκοπιά της Μπεϋζιανής Στατιστικής. Συγκεκριμένα, εξετάζεται η γενική θεωρία επιλογής μοντέλων και μεταβλητών με αναφορά στα δημοφιλή γενικευμένα γραμμικά μοντέλα καθώς επίσης και ο τρόπος με τον οποίο προσεγγίζουμε το παραπάνω πρόβλημα από τη σκοπιά της Μπεϋζιανής θεωρίας. Ο όρος «Μπεϋζιανή» έχει αναφορά στον Thomas Bayes (1702-1761), ο οποίος απέδειξε μια ειδική περίπτωση αυτού που καλείται τώρα το Θεώρημα του Bayes. Ωστόσο, ήταν ο Pierre Simon Laplace (1749-1827) ο οποίος παρουσίασε μια γενική μορφή του Θεωρήματος και το χρησιμοποίησε για την προσέγγιση των προβλημάτων στην ουράνια μηχανική, στην επεξεργασία ιατρικών στοιχείων και στη νομολογία. Στη δεκαετία του 1980 υπήρξε μια δραματική αύξηση στον τομέα της έρευνας και των εφαρμογών των Μπεϋζιανών μεθόδων, γεγονός που ως επί το πλείστον οφείλεται στην ανακάλυψη Markov Chain Monte Carlo τεχνικών, οι οποίες ήραν πολλά από τα υπολογιστικά προβλήματα που παρουσιάζονταν μέχρι τότε κατά την εφαρμογή των μεθόδων αυτών.
Η Στατιστική κατά Bayes βασίζεται σε μία απλή ιδέα: η μόνη ικανοποιητική περιγραφή της αβεβαιότητας μας επιτυγχάνεται μέσω της πιθανότητας. Η Μπεϋζιανή προσέγγιση μας δίνει, μέσω του υπολογισμού πιθανοτήτων, ένα ισχυρό εργαλείο να καταλάβουμε, να χειριστούμε και να ελέγξουμε την αβεβαιότητα. Ο βασικός κανόνας στη Μπεϋζιανή συμπερασματολογία είναι ότι όλες οι άγνωστες ποσότητες θεωρούνται τυχαίες μεταβλητές και πρέπει να περιγράφονται δια μέσου πιθανοτήτων.
Η Στατιστική συμπερασματολογία χρησιμοποιείται για την εξαγωγή συμπερασμάτων από τα δεδομένα που έχει στη διάθεση του ο ερευνητής για τον πληθυσμό. Βασικό εργαλείο όλων των Μπεϋζιανών μεθόδων είναι οι εκ των προτέρων (prior) κατανομές. Οι κατανομές αυτές εκφράζουν τις εκ των προτέρων γνώσεις και πεποιθήσεις του ερευνητή για τις άγνωστες παραμέτρους του μοντέλου και μέσω της Μπεϋζιανής μεθοδολογίας οδηγούν σε εκ των υστέρων (posterior) κατανομές. Στις εκ των υστέρων κατανομές εμπεριέχεται όλη η στατιστική συμπερασματολογία των αγνώστων αυτών παραμέτρων όπως αυτή έχει προκύψει από την Μπεϋζιανή ανάλυση. Η ιδέα της εκ των προτέρων κατανομής αποτελεί και την «καρδιά» της θεωρίας κατά Bayes και θεωρείται το μεγαλύτερο πλεονέκτημα ή το σοβαρότερο μειονέκτημα έναντι της κλασικής Στατιστικής.
Η παρούσα διπλωματική διαρθρώνεται σε τέσσερα κεφάλαια ως εξής: Στο πρώτο κεφάλαιο γίνεται μια εισαγωγή στα γενικευμένα γραμμικά μοντέλα και αναφέρονται κάποιες βασικές έννοιες και ιδιότητες των μοντέλων που ανήκουν σε αυτήν την κατηγορία. Στο δεύτερο κεφάλαιο αναπτύσσονται οι βασικές αρχές της Μπεϋζιανής Στατιστικής θεωρίας όπου μεταξύ άλλων δίνεται ο ορισμός της εκ των προτέρων κατανομής, της εκ των υστέρων κατανομής και του Θεωρήματος Bayes. Το τρίτο κεφάλαιο περιγράφει τον τρόπο με τον οποίο η Μπεϋζιανή θεωρία αντιμετωπίζει το πρόβλημα της επιλογής μοντέλων και μεταβλητών στα γενικευμένα γραμμικά μοντέλα και αναφέρονται όλες οι βασικές έννοιες που συνδέονται με το πρόβλημα αυτό. Τέλος, στο τέταρτο κεφάλαιο αναλύεται κατά κύριο λόγο ο αλγόριθμος MC3 (Markov Chain Monte Carlo Model Composition) που αποτελεί μία από τις πολλές Μπεϋζιανές υπολογιστικές μεθόδους για την επιλογή μοντέλων καθώς και τρεις εφαρμογές του αλγορίθμου αυτού σε πραγματικά δεδομένα.
In this thesis, the development of model and variable selection problem examined from the perspective of Bayesian Statistics. Specifically, we consider the general theory of model and variable selection with reference to the popular generalized linear models as well as how we approach the above problem from the perspective of Bayesian theory. The term "Bayesian" has reference to Thomas Bayes (1702-1761), who proved a special case of what is now called the Bayes’ Theorem. However, it was Pierre Simon Laplace (1749-1827) who presented a general form of the Theorem and used it to approach problems in celestial mechanics, to the processing of medical data and case law. In the 1980's there was a dramatic increase in research and applications of Bayesian methods, which are mostly due to the discovery of Markov Chain Monte Carlo techniques, which removed many of the computational problems that occurred previously in the application of these methods.
The Bayesian Statistics is based in a simple idea: the only satisfactory description of our uncertainty is achieved through the probability. The Bayesian approach give us, by calculating probabilities, a powerful tool to understand, manipulate and control the uncertainty. The basic rule in Bayesian inference is that all unknown quantities are random variables and must be described through probabilities.
The Statistical inference is used to draw conclusions from data that is available to the researcher for the population. The basic tool of all Bayesian methods is the prior distributions. These distributions are expressing the prior knowledge and beliefs of the researcher for the unknown model parameters and through the Bayesian methodology lead to the posterior distributions. In the posterior distributions is included all the statistical inference for the unknown parameters such as resulting from the Bayesian analysis. The concept of prior distribution is the "heart" of the Bayes’ Theory and considered the biggest advantage or the serious disadvantage against the classical statistics.
This thesis is divided into four chapters as follows: The first chapter is an introduction to generalized linear models, referred to some basic concepts and properties of models in this category. The second chapter describes the basic principles of Bayesian Statistical theory where include the definition of prior distribution, the posterior distribution and Bayes’ Theorem. The third chapter describes how the Bayesian theory approaches the model and variable selection problem in generalized linear models and lists all the basic concepts associated with this problem. Finally, the fourth chapter analyzes basically the MC3 algorithm (Markov Chain Monte Carlo Model Composition) which is one of many Bayesian computational methods for selecting models and three applications of this algorithm on real data.