HEAL DSpace

Επιλογή στατιστικών μοντέλων: εφαρμογή σε ψυχιατρικά δεδομένα

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πουλοπούλου, Αλεξάνδρα el
dc.contributor.author Poulopoulou, Alexandra en
dc.date.accessioned 2018-02-14T09:55:27Z
dc.date.available 2018-02-14T09:55:27Z
dc.date.issued 2018-02-14
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/46481
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.13073
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Στατιστική ανάλυση el
dc.subject Παλινδρόμηση el
dc.subject Γενικευμένα γραμμικά μοντέλα el
dc.subject Μέθοδοι επιλογής μεταβλητών el
dc.subject Μέθοδος lasso el
dc.subject Statistical analysis en
dc.subject Regression el
dc.subject Generalized linear models el
dc.subject Variable selection methods el
dc.subject Lasso el
dc.title Επιλογή στατιστικών μοντέλων: εφαρμογή σε ψυχιατρικά δεδομένα el
heal.type bachelorThesis
heal.classification Στατιστική και μαθηματικά el
heal.classificationURI http://data.seab.gr/concepts/612439338f883f5eb6bd1c572627da57a3b10bfb
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-11-06
heal.abstract Την τελευταία δεκαετία, η χρήση των γενικευμένων γραμμικών μοντέλων έχει εξα- πλωθεί σε πολλούς επιστημονικούς τομείς. Ο λόγος είναι, ότι βρίσκουν εφαρμογή σε δεδομένα διαφόρων φύσεων και αποδίδουν αξιόπιστα αποτελέσματα. Η ανάγκη μελέ- της των σχέσεων εξάρτησης μεταξύ μεταβλητών, είναι το πιο συχνό ερώτημα στην επι- στημονική κοινότητα. Με την πάροδο των χρόνων, τα κριτήρια επιλογής βέλτιστων μοντέλων και κατάλληλων μεταβλητών έχουν βελτιωθεί σημαντικά και αποτελούν ένα εξαιρετικά χρήσιμο εργαλείο. Στην παρούσα διπλωματική εργασία, παρουσιάζεται η θεωρία των γενικευμένων γραμμικών μοντέλων παλινδρόμησης, με ιδιαίτερη έμφαση να δίνεται στο λογιστικό μοντέλο. Επιπλέον, μελετάται η ποινικοποιημένη μέθοδος επιλογής μεταβλητών lasso, η οποία αποτελεί την πιο διαδεδομένη τεχνική της κατηγορίας της. Στο τέλος, γίνεται εφαρμογή σε πραγματικά ψυχιατρικά δεδομένα, με τη χρήση του στατιστικού πακέτου της R. Συγκεκριμένα, στο πρώτο κεφάλαιο, παρατήθεται ο ορισμός της κατάθλιψης και η επιδημιολογία της. Στην αρχή δίνεται μια σύντομη εισαγωγή στις διαστάσεις που έχει πάρει η ψυχική αυτή διαταραχή στον κόσμο με στατιστικά στοιχεία άλλων ερευνών. Στο πρώτο μέρος της εργασίας περιλαμβάνεται και η ιστορική αναδρομή της νόσου. Μετέπειτα, αποτυπώνεται η συμπτωματολογία της κατάθλιψης με βάση το σύστημα τα- ξινόμησης DSM-5 και οι μορφές της, όπως αυτές περιγράφονται στη Διεθνή Στατιστική Ταξινόμηση Νοσημάτων και Συναφών Προβλημάτων Υγείας (International Statistical Classification of Diseases and Related Health Problems - ICD-10). Τέλος, αναφέρονται οι τρόποι αντιμετώπισης της καταθλιπτικής διαταραχής στην σύγχρονη κοινωνία. Στο δεύτερο κεφάλαιο, παρουσιάζεται η θεωρία γύρω από τα μοντέλα παλινδρόμη- σης για δίτιμες μεταβλητές απόκρισης. Ιδιαίτερη έμφαση δίνεται στο μοντέλο της λο- γιστικής παλινδρόμησης, καθώς είναι ευκολότερα ερμηνεύσιμο, για δίτιμα δεδομένα. Στη συνέχεια, γίνεται διαχωρισμός των γενικευμένων γραμμικών μοντέλων με βάση τη συνάρτηση σύνδεσης και έπειτα, παρουσιάζονται οι διαφορές μεταξύ δύο, αυτών της logit και probit συνάρτησης. Στο τρίτο κεφάλαιο, γίνεται μία εισαγωγή στις μεθόδους επιλογής μεταβλητών. Στην αρχή του κεφαλαίου, παρουσιάζεται ένα από τα προβληματα που καλούνται να λύσουν αυτές οι μέθοδοι, το φαινόμενο της πολυσυγγραμμικότητας. Η προσοχή στρέφεται στη ποινικοποιημένη μέθοδο lasso, η οποία παρουσιάζεται με κάθε λεπτομέρεια. Με σκοπό να εισάγουμε τη συγκεκριμένη μέθοδο, γίνεται επίσης, μία σύντομη περιγραφή των τεχνικών επιλογής υποσυνόλων, καθώς και της παλινδρόμησης κορυφογραμμής. Στο τέταρτο και τελευταίο κεφάλαιο, εφαρμόζονται οι βασικές τεχνικές που ανα- 2 πτύχθηκαν στη θεωρία και διεξάγονται τα ανάλογα συμπεράσματα. Πιο συγκεκριμένα, προσαρμόζεται ένα μοντέλο λογιστικής παλινδρόμησης και ένα μοντέλο probit. Πριν από αυτό, έχει προηγηθεί ο καθαρισμός των διαθέσιμων δεδομένων και μία μικρή περι- γραφή τους. Στη συνέχεια, πραγματοποιείται μία ανάλυση με τη μέθοδο lasso και τέλος, συγκρίνονται τα αποτελέσματα των μεθόδων που αναπτύχθηκαν. el
heal.abstract The last decade, the use of generalized linear models is spreading in many scientific areas. The reason of this phenomenon, is that they can be applied on different data and deliver reliable results. The need of building models to deliver and describe the relationship of dependence between the variables, is the most common scientific question. Over the years, model selection and variable selection criteria have been improved and constitute a set of extremely useful tools. In this dissertation, we analyze the theory of generalized linear models, giving emphasis on logistic regression model. Furthermore, we study the variable selection method lasso, which is the most widespread technique in its category. In the end, the methods are applied to real psychiatric data, using the statistical package R. In particular, the first chapter describes the definition of depression and its epidemiology. At the beginning, there is a brief introduction to the dimensions that this mental disorder have occupied in the world, using statistical results from other surveys. The first part of this study, includes the historical retrospective of the disease. Then, we describe the symptomatology of depression, based on the DSM-5 classification system and its forms, as described in the International Statistical Classification of Diseases and Related Health Problems (ICD-10). Finally, we mention the ways of dealing with the depressive disorder in modern society. In the second chapter, we present the theory about regression models for binary data. In particular, we emphasize to the logistic regression model, as its interpretation is easier than other models. Then, we separate the generalized linear models based on the link function and we present the differences between the logit and probit function. In the third chapter, we present the theory of variable selection methods. At the beginning, we mention the problem of multicollinearity, that these methods are made to solve. The main subject of this chapter, is the lasso method, which we present in every detail. In order to introduce this method, we begin with a brief description of the subset selection techniques and ridge regression. In the fourth and final chapter, we provide some applications using the statistical package R and we report the final results. In particular, we fit a logistic regression model and a probit model. Finally, we perform a lasso analysis and we compare the results of the methods that have been applied. en
heal.advisorName Φουσκάκης, Δημήτριος el
heal.committeeMemberName Φουσκάκης, Δημήτριος el
heal.committeeMemberName Λουλάκης, Μιχάλης el
heal.committeeMemberName Κολέτσος, Ιωάννης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών el
heal.academicPublisherID ntua
heal.numberOfPages 123 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα