dc.contributor.author |
Ντουντούμι, Κλέιντα
|
el |
dc.contributor.author |
Ntountoumi, Kleinta
|
en |
dc.date.accessioned |
2020-12-14T10:06:02Z |
|
dc.date.available |
2020-12-14T10:06:02Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/52500 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.20198 |
|
dc.rights |
Default License |
|
dc.subject |
Μηχανική μάθηση |
el |
dc.subject |
Προσωποποιημένη ιατρική |
el |
dc.subject |
Ομαδοποίηση |
el |
dc.subject |
Ιατρικά προφίλ |
el |
dc.subject |
Αλγόριθμος των κ-Μέσων |
el |
dc.subject |
Αλγόριθμος ιεραρχικής συγκεντρωτικής ομαδοποίησης |
el |
dc.subject |
Αλγόριθμος t-SNE |
el |
dc.subject |
Συντελεστής Davies-Bouldin |
el |
dc.subject |
Machine learning |
en |
dc.subject |
Clustering |
en |
dc.subject |
Personalized medicine |
en |
dc.subject |
Medical profiles |
en |
dc.subject |
Generated database |
en |
dc.subject |
Python |
en |
dc.subject |
Scikit-learn |
en |
dc.subject |
Μέθοδος του αγκώνα |
el |
dc.subject |
Elbow method |
en |
dc.subject |
Hierachical agglomerative clustering |
en |
dc.title |
Ομαδοποίηση ιατρικών προφίλ από δημιουργημένη βάση δεδομένων με τεχνικές μηχανικής μάθησης |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Μηχανική Μάθηση |
el |
heal.classification |
Electrical and Computer Engineering |
en |
heal.classification |
Machine Learning |
en |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2020-11-03 |
|
heal.abstract |
Η χρήση των τεχνικών μηχανικής μάθησης και εξόρυξης γνώσης διαδραματίζουν ολοένα και πιο καταλυτικό ρόλο στη βελτιστοποίηση των δυνατοτήτων της εξατομικευμένης ιατρικής φροντίδας, ιδιαίτερα σε μια εποχή που η διαθεσιμότητα δεδομένων υγείας από self-monitoring εφαρμογές συνεχώς αυξάνεται. Αντικείμενο της παρούσας διπλωματικής εργασίας ήταν η διερεύνηση της δυνατότητας ομαδοποίησης δημιουργημένων ιατρικών προφίλ με παρεμφερή χαρακτηριστικά με τεχνικές μηχανικές μάθησης.
Tα δεδομένα των ιατρικών προφίλ δημιουργήθηκαν με τυχαίο τρόπο και αποθηκεύτηκαν σε μια σχεσιακή βάση δεδομένων. Τα μεγέθη αυτά περιλαμβάνουν γενικές πληροφορίες για κάθε χρήστη (ηλικία, φύλο, μορφωτικό επίπεδο) καθώς και ιατρικά μεγέθη κωδικοποιημένα κατά τα πρότυπα ICD-10 και SNOMED CT. Συγκεκριμένα, συναντώνται πληροφορίες ιατρικού ιστορικού (ιστορικό διαβήτη, κατάθλιψης, απώλειας ακοής, εγκεφαλοαγγειακής νόσου, γνωστικής δυσλειτουργίας κ.α.), αλλά και πληθώρα μετρήσεων όπως το βάρος, το ύψος, η μυϊκή μάζα, η χρήση αλκοόλ, ο εθισμός στη νικοτίνη, το επίπεδο φυσικής άσκησης και ο κορεσμός του οξυγόνου.
Στα δεδομένα αυτά πραγματοποιήθηκε προ επεξεργασία και επιλογή χαρακτηριστικών ενώ εφαρμόστηκε ο αλγόριθμος των κ-Μέσων με χρήση της μεθόδου του αγκώνα για επιλογή του αριθμού των συστάδων, ο αλγόριθμος Ιεραρχικής συγκεντρωτικής ομαδοποίησης, ο αλγόριθμος t-SNE και ο αλγόριθμος DBSCAN. Τα αποτελέσματα αξιολογήθηκαν με χρήση των συντελεστών Davies-Bouldin, Calinski-Harabasz και Silhouette. Επιπλέον, χρησιμοποιήθηκε 10-fold cross validation για αξιολόγηση της δυνατότητας ταξινόμησης μεγαλύτερου αριθμού ιατρικών προφίλ με βάση την υπάρχουσα ομαδοποίηση. Από την παραπάνω διαδικασία, η οποία πραγματοποιήθηκε σε Python με χρήση της βιβλιοθήκης scikit-learn, προέκυψαν ενδείξεις επιτυχούς ομαδοποίησης για δύο από τους τέσσερις αλγορίθμους που χρησιμοποιήθηκαν παρά τον υψηλό αριθμό διαστάσεων στο σύνολο δεδομένων εισόδου. |
el |
heal.abstract |
The use of machine learning and knowledge mining techniques, in conjunction with the increased availability of health data generated by self-monitoring apps, are considered important catalysts in the advancement of personalized medicine capabilities.
The scope of this thesis was the clustering of generated medical profiles with similar characteristics by utilizing various clustering algorithms.
Medical profiles were generated randomly and stored in a relational database. The data consisted of demographic information for each user (age, gender, educational level) as well as medical measurements encoded using the ICD-10 and SNOMED CT protocols. Information on medical history (history of diabetes, depression, hearing loss, cerebrovascular disease, cognitive impairment, etc.) but also a variety of measurements such as weight, height, muscle mass, alcohol use, nicotine addiction, level of exercise and oxygen saturation were included in our study.
Initially, preprocessing and feature selection were performed and then k-Means was applied using the elbow method to select the appropriate number of clusters. Hierarchical Agglomerative Clustering, t-SNE and DBSCAN were also used. Results were evaluated using the Davies-Bouldin Index, the Calinski-Harabasz Index and the Silhouette Score. In addition, 10-fold cross validation was performed to evaluate the performance of a classifier based on the existing clustering. The aforementioned task was performed in Python using the scikit-learn library and the results showed evidence of successful clustering for two of the four algorithms used, despite the high dimensionality of our dataset. |
en |
heal.advisorName |
Κουτσούρης, Δημήτριος – Διονύσιος |
el |
heal.committeeMemberName |
Κουτσούρης, Δημήτριος – Διονύσιος |
el |
heal.committeeMemberName |
Τσανάκας, Παναγιώτης |
el |
heal.committeeMemberName |
Ματσόπουλος, Γιώργος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
87 σ. |
el |
heal.fullTextAvailability |
false |
|