dc.contributor.author | Πουλοπούλου, Αλεξάνδρα | el |
dc.contributor.author | Poulopoulou, Alexandra | en |
dc.date.accessioned | 2018-02-14T09:55:27Z | |
dc.date.available | 2018-02-14T09:55:27Z | |
dc.date.issued | 2018-02-14 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/46481 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.13073 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Στατιστική ανάλυση | el |
dc.subject | Παλινδρόμηση | el |
dc.subject | Γενικευμένα γραμμικά μοντέλα | el |
dc.subject | Μέθοδοι επιλογής μεταβλητών | el |
dc.subject | Μέθοδος lasso | el |
dc.subject | Statistical analysis | en |
dc.subject | Regression | el |
dc.subject | Generalized linear models | el |
dc.subject | Variable selection methods | el |
dc.subject | Lasso | el |
dc.title | Επιλογή στατιστικών μοντέλων: εφαρμογή σε ψυχιατρικά δεδομένα | el |
heal.type | bachelorThesis | |
heal.classification | Στατιστική και μαθηματικά | el |
heal.classificationURI | http://data.seab.gr/concepts/612439338f883f5eb6bd1c572627da57a3b10bfb | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2017-11-06 | |
heal.abstract | Την τελευταία δεκαετία, η χρήση των γενικευμένων γραμμικών μοντέλων έχει εξα- πλωθεί σε πολλούς επιστημονικούς τομείς. Ο λόγος είναι, ότι βρίσκουν εφαρμογή σε δεδομένα διαφόρων φύσεων και αποδίδουν αξιόπιστα αποτελέσματα. Η ανάγκη μελέ- της των σχέσεων εξάρτησης μεταξύ μεταβλητών, είναι το πιο συχνό ερώτημα στην επι- στημονική κοινότητα. Με την πάροδο των χρόνων, τα κριτήρια επιλογής βέλτιστων μοντέλων και κατάλληλων μεταβλητών έχουν βελτιωθεί σημαντικά και αποτελούν ένα εξαιρετικά χρήσιμο εργαλείο. Στην παρούσα διπλωματική εργασία, παρουσιάζεται η θεωρία των γενικευμένων γραμμικών μοντέλων παλινδρόμησης, με ιδιαίτερη έμφαση να δίνεται στο λογιστικό μοντέλο. Επιπλέον, μελετάται η ποινικοποιημένη μέθοδος επιλογής μεταβλητών lasso, η οποία αποτελεί την πιο διαδεδομένη τεχνική της κατηγορίας της. Στο τέλος, γίνεται εφαρμογή σε πραγματικά ψυχιατρικά δεδομένα, με τη χρήση του στατιστικού πακέτου της R. Συγκεκριμένα, στο πρώτο κεφάλαιο, παρατήθεται ο ορισμός της κατάθλιψης και η επιδημιολογία της. Στην αρχή δίνεται μια σύντομη εισαγωγή στις διαστάσεις που έχει πάρει η ψυχική αυτή διαταραχή στον κόσμο με στατιστικά στοιχεία άλλων ερευνών. Στο πρώτο μέρος της εργασίας περιλαμβάνεται και η ιστορική αναδρομή της νόσου. Μετέπειτα, αποτυπώνεται η συμπτωματολογία της κατάθλιψης με βάση το σύστημα τα- ξινόμησης DSM-5 και οι μορφές της, όπως αυτές περιγράφονται στη Διεθνή Στατιστική Ταξινόμηση Νοσημάτων και Συναφών Προβλημάτων Υγείας (International Statistical Classification of Diseases and Related Health Problems - ICD-10). Τέλος, αναφέρονται οι τρόποι αντιμετώπισης της καταθλιπτικής διαταραχής στην σύγχρονη κοινωνία. Στο δεύτερο κεφάλαιο, παρουσιάζεται η θεωρία γύρω από τα μοντέλα παλινδρόμη- σης για δίτιμες μεταβλητές απόκρισης. Ιδιαίτερη έμφαση δίνεται στο μοντέλο της λο- γιστικής παλινδρόμησης, καθώς είναι ευκολότερα ερμηνεύσιμο, για δίτιμα δεδομένα. Στη συνέχεια, γίνεται διαχωρισμός των γενικευμένων γραμμικών μοντέλων με βάση τη συνάρτηση σύνδεσης και έπειτα, παρουσιάζονται οι διαφορές μεταξύ δύο, αυτών της logit και probit συνάρτησης. Στο τρίτο κεφάλαιο, γίνεται μία εισαγωγή στις μεθόδους επιλογής μεταβλητών. Στην αρχή του κεφαλαίου, παρουσιάζεται ένα από τα προβληματα που καλούνται να λύσουν αυτές οι μέθοδοι, το φαινόμενο της πολυσυγγραμμικότητας. Η προσοχή στρέφεται στη ποινικοποιημένη μέθοδο lasso, η οποία παρουσιάζεται με κάθε λεπτομέρεια. Με σκοπό να εισάγουμε τη συγκεκριμένη μέθοδο, γίνεται επίσης, μία σύντομη περιγραφή των τεχνικών επιλογής υποσυνόλων, καθώς και της παλινδρόμησης κορυφογραμμής. Στο τέταρτο και τελευταίο κεφάλαιο, εφαρμόζονται οι βασικές τεχνικές που ανα- 2 πτύχθηκαν στη θεωρία και διεξάγονται τα ανάλογα συμπεράσματα. Πιο συγκεκριμένα, προσαρμόζεται ένα μοντέλο λογιστικής παλινδρόμησης και ένα μοντέλο probit. Πριν από αυτό, έχει προηγηθεί ο καθαρισμός των διαθέσιμων δεδομένων και μία μικρή περι- γραφή τους. Στη συνέχεια, πραγματοποιείται μία ανάλυση με τη μέθοδο lasso και τέλος, συγκρίνονται τα αποτελέσματα των μεθόδων που αναπτύχθηκαν. | el |
heal.abstract | The last decade, the use of generalized linear models is spreading in many scientific areas. The reason of this phenomenon, is that they can be applied on different data and deliver reliable results. The need of building models to deliver and describe the relationship of dependence between the variables, is the most common scientific question. Over the years, model selection and variable selection criteria have been improved and constitute a set of extremely useful tools. In this dissertation, we analyze the theory of generalized linear models, giving emphasis on logistic regression model. Furthermore, we study the variable selection method lasso, which is the most widespread technique in its category. In the end, the methods are applied to real psychiatric data, using the statistical package R. In particular, the first chapter describes the definition of depression and its epidemiology. At the beginning, there is a brief introduction to the dimensions that this mental disorder have occupied in the world, using statistical results from other surveys. The first part of this study, includes the historical retrospective of the disease. Then, we describe the symptomatology of depression, based on the DSM-5 classification system and its forms, as described in the International Statistical Classification of Diseases and Related Health Problems (ICD-10). Finally, we mention the ways of dealing with the depressive disorder in modern society. In the second chapter, we present the theory about regression models for binary data. In particular, we emphasize to the logistic regression model, as its interpretation is easier than other models. Then, we separate the generalized linear models based on the link function and we present the differences between the logit and probit function. In the third chapter, we present the theory of variable selection methods. At the beginning, we mention the problem of multicollinearity, that these methods are made to solve. The main subject of this chapter, is the lasso method, which we present in every detail. In order to introduce this method, we begin with a brief description of the subset selection techniques and ridge regression. In the fourth and final chapter, we provide some applications using the statistical package R and we report the final results. In particular, we fit a logistic regression model and a probit model. Finally, we perform a lasso analysis and we compare the results of the methods that have been applied. | en |
heal.advisorName | Φουσκάκης, Δημήτριος | el |
heal.committeeMemberName | Φουσκάκης, Δημήτριος | el |
heal.committeeMemberName | Λουλάκης, Μιχάλης | el |
heal.committeeMemberName | Κολέτσος, Ιωάννης | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 123 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: