Ομαδοποίηση ιατρικών προφίλ από δημιουργημένη βάση δεδομένων με τεχνικές μηχανικής μάθησης

Ντουντούμι, Κλέιντα; Ntountoumi, Kleinta

dc.contributor.author	Ντουντούμι, Κλέιντα	el
dc.contributor.author	Ntountoumi, Kleinta	en
dc.date.accessioned	2020-12-14T10:06:02Z
dc.date.available	2020-12-14T10:06:02Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52500
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.20198
dc.rights	Default License
dc.subject	Μηχανική μάθηση	el
dc.subject	Προσωποποιημένη ιατρική	el
dc.subject	Ομαδοποίηση	el
dc.subject	Ιατρικά προφίλ	el
dc.subject	Αλγόριθμος των κ-Μέσων	el
dc.subject	Αλγόριθμος ιεραρχικής συγκεντρωτικής ομαδοποίησης	el
dc.subject	Αλγόριθμος t-SNE	el
dc.subject	Συντελεστής Davies-Bouldin	el
dc.subject	Machine learning	en
dc.subject	Clustering	en
dc.subject	Personalized medicine	en
dc.subject	Medical profiles	en
dc.subject	Generated database	en
dc.subject	Python	en
dc.subject	Scikit-learn	en
dc.subject	Μέθοδος του αγκώνα	el
dc.subject	Elbow method	en
dc.subject	Hierachical agglomerative clustering	en
dc.title	Ομαδοποίηση ιατρικών προφίλ από δημιουργημένη βάση δεδομένων με τεχνικές μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Μηχανική Μάθηση	el
heal.classification	Electrical and Computer Engineering	en
heal.classification	Machine Learning	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-11-03
heal.abstract	Η χρήση των τεχνικών μηχανικής μάθησης και εξόρυξης γνώσης διαδραματίζουν ολοένα και πιο καταλυτικό ρόλο στη βελτιστοποίηση των δυνατοτήτων της εξατομικευμένης ιατρικής φροντίδας, ιδιαίτερα σε μια εποχή που η διαθεσιμότητα δεδομένων υγείας από self-monitoring εφαρμογές συνεχώς αυξάνεται. Αντικείμενο της παρούσας διπλωματικής εργασίας ήταν η διερεύνηση της δυνατότητας ομαδοποίησης δημιουργημένων ιατρικών προφίλ με παρεμφερή χαρακτηριστικά με τεχνικές μηχανικές μάθησης. Tα δεδομένα των ιατρικών προφίλ δημιουργήθηκαν με τυχαίο τρόπο και αποθηκεύτηκαν σε μια σχεσιακή βάση δεδομένων. Τα μεγέθη αυτά περιλαμβάνουν γενικές πληροφορίες για κάθε χρήστη (ηλικία, φύλο, μορφωτικό επίπεδο) καθώς και ιατρικά μεγέθη κωδικοποιημένα κατά τα πρότυπα ICD-10 και SNOMED CT. Συγκεκριμένα, συναντώνται πληροφορίες ιατρικού ιστορικού (ιστορικό διαβήτη, κατάθλιψης, απώλειας ακοής, εγκεφαλοαγγειακής νόσου, γνωστικής δυσλειτουργίας κ.α.), αλλά και πληθώρα μετρήσεων όπως το βάρος, το ύψος, η μυϊκή μάζα, η χρήση αλκοόλ, ο εθισμός στη νικοτίνη, το επίπεδο φυσικής άσκησης και ο κορεσμός του οξυγόνου. Στα δεδομένα αυτά πραγματοποιήθηκε προ επεξεργασία και επιλογή χαρακτηριστικών ενώ εφαρμόστηκε ο αλγόριθμος των κ-Μέσων με χρήση της μεθόδου του αγκώνα για επιλογή του αριθμού των συστάδων, ο αλγόριθμος Ιεραρχικής συγκεντρωτικής ομαδοποίησης, ο αλγόριθμος t-SNE και ο αλγόριθμος DBSCAN. Τα αποτελέσματα αξιολογήθηκαν με χρήση των συντελεστών Davies-Bouldin, Calinski-Harabasz και Silhouette. Επιπλέον, χρησιμοποιήθηκε 10-fold cross validation για αξιολόγηση της δυνατότητας ταξινόμησης μεγαλύτερου αριθμού ιατρικών προφίλ με βάση την υπάρχουσα ομαδοποίηση. Από την παραπάνω διαδικασία, η οποία πραγματοποιήθηκε σε Python με χρήση της βιβλιοθήκης scikit-learn, προέκυψαν ενδείξεις επιτυχούς ομαδοποίησης για δύο από τους τέσσερις αλγορίθμους που χρησιμοποιήθηκαν παρά τον υψηλό αριθμό διαστάσεων στο σύνολο δεδομένων εισόδου.	el
heal.abstract	The use of machine learning and knowledge mining techniques, in conjunction with the increased availability of health data generated by self-monitoring apps, are considered important catalysts in the advancement of personalized medicine capabilities. The scope of this thesis was the clustering of generated medical profiles with similar characteristics by utilizing various clustering algorithms. Medical profiles were generated randomly and stored in a relational database. The data consisted of demographic information for each user (age, gender, educational level) as well as medical measurements encoded using the ICD-10 and SNOMED CT protocols. Information on medical history (history of diabetes, depression, hearing loss, cerebrovascular disease, cognitive impairment, etc.) but also a variety of measurements such as weight, height, muscle mass, alcohol use, nicotine addiction, level of exercise and oxygen saturation were included in our study. Initially, preprocessing and feature selection were performed and then k-Means was applied using the elbow method to select the appropriate number of clusters. Hierarchical Agglomerative Clustering, t-SNE and DBSCAN were also used. Results were evaluated using the Davies-Bouldin Index, the Calinski-Harabasz Index and the Silhouette Score. In addition, 10-fold cross validation was performed to evaluate the performance of a classifier based on the existing clustering. The aforementioned task was performed in Python using the scikit-learn library and the results showed evidence of successful clustering for two of the four algorithms used, despite the high dimensionality of our dataset.	en
heal.advisorName	Κουτσούρης, Δημήτριος – Διονύσιος	el
heal.committeeMemberName	Κουτσούρης, Δημήτριος – Διονύσιος	el
heal.committeeMemberName	Τσανάκας, Παναγιώτης	el
heal.committeeMemberName	Ματσόπουλος, Γιώργος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών	el
heal.academicPublisherID	ntua
heal.numberOfPages	87 σ.	el
heal.fullTextAvailability	false