HEAL DSpace

Μέθοδοι επιλογής μοντέλων στη στατιστική

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ρεπόπουλος, Σοφοκλής el
dc.contributor.author Repopoulos, Sofoklis en
dc.date.accessioned 2021-10-22T10:04:22Z
dc.date.available 2021-10-22T10:04:22Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/53991
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21689
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject στατιστικά μοντέλα el
dc.subject Παλινδρόμηση el
dc.subject Θεωρητικά κριτήρια πληροφορίας el
dc.subject Προβλεπτικό σφάλμα el
dc.subject Επιλογή μεταβλητών el
dc.subject Model selection en
dc.subject Information theoretic criteria en
dc.subject Regression en
dc.subject Variable selection en
dc.subject Prediction error en
dc.title Μέθοδοι επιλογής μοντέλων στη στατιστική el
dc.title Model selection methods in Statistics en
heal.type bachelorThesis
heal.classification Στατιστική el
heal.classification Statistics en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-07-05
heal.abstract Στη σύγχρονη εποχή έχουμε πρόσβαση σε πληθώρα δεδομένων τα οποία αν αξιοποιηθούν κατάλληλα μπορούν να οδηγήσουν στην ορθή λήψη αποφάσεων και να προσφέρουν διορατικότητα στην επίλυση προβλημάτων. Τα στατιστικά μοντέλα παλινδρόμησης προσπαθούν να εξηγήσουν τις πιθανές σχέσεις που υπάρχουν ανάμεσα στις μεταβλητές-έννοιες που μελετώνται. Ένα από τα κυριότερα ζητήματα του προβλήματος επιλογής μοντέλων είναι η εύρεση του κατάλληλου υποσυνόλου επεξηγηματικών μεταβλητών, το οποίο οδηγεί κατά επέκταση σε μοντέλα με υψηλή προβλεπτική ικανότητα και μειώνει το υπολογιστικό κόστος στην αξιοποίησή τους. Στην παρούσα εργασία μελετάται ένα πλήθος από μεθόδους και κριτήρια επιλογής στατιστικών μοντέλων με στόχο την αποτελεσματική πρόβλεψη της μεταβλητής ενδιαφέροντος και την ανίχνευση των παραγόντων με τη μεγαλύτερη επιρροή. Στο 1ο κεφάλαιο "Βασικές έννοιες" παρουσιάζουμε τις θεμελιώδεις αρχές του προβλήματος επιλογής μοντέλου που πρέπει να λαμβάνει υπόψιν του ο κάθε αναλυτής. Επιπλέον, εισάγεται η έννοια της Kullback-Leibler απόστασης με την οποία συνδέονται τα κριτήρια πληροφορίας που μελετώνται στο επόμενο κεφάλαιο. Επίσης, παρουσιάζεται και αναλύεται το γραμμικό μοντέλο παλινδρόμησης, που είναι το πιο ευρέως διαδεδομένο στατιστικό μοντέλο, μαζί με τα καταλληλότητας R-squared και Mallow's Cp. Στο 2ο κεφάλαιο "Θεωρητικά κριτήρια πληροφορίας" συνδέουμε αρχικά την έννοια της Kullback-Leibler απόστασης με τα θεωρητικά κριτήρια πληροφορίας, εργαλεία κρίσιμης σημασίας στην επιλογή μοντέλων. Στη συνέχεια παρουσιάζουμε και αναλύουμε τα AIC και AICc κριτήρια πληροφορίας τα οποία εφαρμόζουμε στο γραμμικό μοντέλο παλινδρόμησης. Επίσης παρουσιάζουμε το Μπεϋζιανό κριτήριο πληροφορίας BIC και το συγκρίνουμε με τα προηγούμενα κριτήρια σε εφαρμογή με δεδομένα διάρκειας ζωής. Στο τέλος του κεφαλαίου αναλύουμε το πρόβλημα της επιλογής μεταβλητών εστιάζοντας στη μέθοδο της πλήρους εξερεύνησης του χώρου μοντελοποίησης και στις διαδικασίες κατά βήματα, αναφέροντας τα πλεονεκτήματα και μειονεκτήματά τους. Στο 3ο κεφάλαιο "Ιδιότητες κριτηρίων πληροφορίας" εισάγουμε θεμελιώδεις ιδιότητες που είναι θεμιτό να κατέχουν τα κριτήρια πληροφορίας. Συγκεκριμένα, εξετάζουμε με τη βοήθεια αντίστοιχων θεωρημάτων τις ιδιότητες της ασθενούς και της ισχυρής συνέπειας των κριτηρίων AIC, AICc και BIC. Στο 4ο κεφάλαιο "Cross validation και Bootstrap" εισάγουμε τις υπολογιστικές μεθόδους cross validation και Bootstrap και παρουσιάζουμε τον τρόπο που χρησιμοποιούνται για την εκτίμηση του προβλεπτικού σφάλματος των μοντέλων. Ασχολούμαστε με αρκετές εκδοχές της cross validation μεθόδου τις οποίες αξιολογούμε μαζί με την Boostrap μέθοδο σε παράδειγμα δεδομένων. Στο 5ο κεφάλαιο "Μέθοδος lasso" αναλύουμε αρχικά το πρόβλημα της πολυσυγγραμμικότητας που εμφανίζεται συχνά στα διαθέσιμα δεδομένα και δυσκολεύει την εύρεση βέλτιστου γραμμικού μοντέλου. Στη συνέχεια παρουσιάζουμε τη μέθοδο ποινικοποίησης lasso η οποία αντιμετωπίζει το προαναφερθέν πρόβλημα και πραγματοποιεί με αυτόματο τρόπο την επιλογή μεταβλητών. Στο τελευταίο κεφάλαιο "Σύγκριση μεθόδων σε προσομοιωμένα δεδομένα" πραγματοποιούμε δύο διαφορετικές προσομοιώσεις δεδομένων από την πολυδιάστατη κανονική κατανομή προκειμένου να αξιολογήσουμε την απόδοση των μεθόδων που παρουσιάστηκαν στα πλαίσια της εργασίας. el
heal.abstract In modern times we have access to a wealth of data which if used properly can lead to sound decision making and offer insight into problem solving. Statistical models try to explain the possible relationships between the variables-concepts being studied. One of the main issues of the model selection problem is to find the appropriate subset of explanatory variables which leads to models with high predictability and low computational cost. In the present work a number of methods and criteria for model selection are studied in order to effectively predict the variable of interest and detect the factors with the greatest influence. In the 1st chapter "Basic concepts" we present the fundamental principles of the model selection problem that every analyst must take into account. In addition, the concept of Kullback-Leibler distance is introduced, which is related to the information criteria studied in the next chapter. The linear regression model, which is the most widely used statistical model, is also presented and analyzed along with the R-squared and Mallow's Cp metrics. In Chapter 2 "Information theoretic criteria" we first connect the concept of the Kullback-Leibler distance with the information theoretic criteria, tools critical to model selection. Then we present and analyze the AIC and AICc information criteria that we apply to the linear regression model. We also present the Bayesian information criterion BIC and compare it with the previous criteria in a real lifetime data application. At the end of the chapter we analyze the problem of variable selection focusing on the method of full exploration of the modeling space and the stepwise procedures, stating their advantages and disadvantages. In Chapter 3 "Information Criteria Properties" we introduce fundamental information criteria properties that are often required. In particular, we examine with the help of relative theorems the properties of the weak and strong consistency of the AIC, AICc and BIC criteria. In the 4th chapter "Cross validation and Bootstrap" we introduce the computational methods cross validation and Bootstrap and present the way they are used to estimate the prediction error of the models. We deal with several versions of the cross validation method that we evaluate together with the Boostrap method in a data example. In the 5th chapter "Lasso method" we first analyze the problem of multicollinearity that often appears in the available data and makes it difficult to find an optimal linear model. Next, we present the lasso penalization method which addresses the aforementioned problem and automatically selects variables. In the last chapter "Comparison of methods in simulated data" we perform two different data simulations from the multivariate normal distribution in order to evaluate the performance of the methods presented. en
heal.advisorName Φουσκάκης, Δημήτριος el
heal.advisorName Fouskakis, Dimitris en
heal.committeeMemberName Λουλάκης, Μιχαήλ el
heal.committeeMemberName Loulakis, Michail en
heal.committeeMemberName Φουσκάκης, Δημήτριος el
heal.committeeMemberName Fouskakis, Dimitris en
heal.committeeMemberName Βόντα, Φιλία el
heal.committeeMemberName Vonta, Filia en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών el
heal.academicPublisherID ntua
heal.numberOfPages 133 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα