HEAL DSpace

Ομαδοποίηση ιατρικών προφίλ από δημιουργημένη βάση δεδομένων με τεχνικές μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ντουντούμι, Κλέιντα el
dc.contributor.author Ntountoumi, Kleinta en
dc.date.accessioned 2020-12-14T10:06:02Z
dc.date.available 2020-12-14T10:06:02Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52500
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.20198
dc.rights Default License
dc.subject Μηχανική μάθηση el
dc.subject Προσωποποιημένη ιατρική el
dc.subject Ομαδοποίηση el
dc.subject Ιατρικά προφίλ el
dc.subject Αλγόριθμος των κ-Μέσων el
dc.subject Αλγόριθμος ιεραρχικής συγκεντρωτικής ομαδοποίησης el
dc.subject Αλγόριθμος t-SNE el
dc.subject Συντελεστής Davies-Bouldin el
dc.subject Machine learning en
dc.subject Clustering en
dc.subject Personalized medicine en
dc.subject Medical profiles en
dc.subject Generated database en
dc.subject Python en
dc.subject Scikit-learn en
dc.subject Μέθοδος του αγκώνα el
dc.subject Elbow method en
dc.subject Hierachical agglomerative clustering en
dc.title Ομαδοποίηση ιατρικών προφίλ από δημιουργημένη βάση δεδομένων με τεχνικές μηχανικής μάθησης el
heal.type bachelorThesis
heal.classification Μηχανική Μάθηση el
heal.classification Electrical and Computer Engineering en
heal.classification Machine Learning en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-11-03
heal.abstract Η χρήση των τεχνικών μηχανικής μάθησης και εξόρυξης γνώσης διαδραματίζουν ολοένα και πιο καταλυτικό ρόλο στη βελτιστοποίηση των δυνατοτήτων της εξατομικευμένης ιατρικής φροντίδας, ιδιαίτερα σε μια εποχή που η διαθεσιμότητα δεδομένων υγείας από self-monitoring εφαρμογές συνεχώς αυξάνεται. Αντικείμενο της παρούσας διπλωματικής εργασίας ήταν η διερεύνηση της δυνατότητας ομαδοποίησης δημιουργημένων ιατρικών προφίλ με παρεμφερή χαρακτηριστικά με τεχνικές μηχανικές μάθησης. Tα δεδομένα των ιατρικών προφίλ δημιουργήθηκαν με τυχαίο τρόπο και αποθηκεύτηκαν σε μια σχεσιακή βάση δεδομένων. Τα μεγέθη αυτά περιλαμβάνουν γενικές πληροφορίες για κάθε χρήστη (ηλικία, φύλο, μορφωτικό επίπεδο) καθώς και ιατρικά μεγέθη κωδικοποιημένα κατά τα πρότυπα ICD-10 και SNOMED CT. Συγκεκριμένα, συναντώνται πληροφορίες ιατρικού ιστορικού (ιστορικό διαβήτη, κατάθλιψης, απώλειας ακοής, εγκεφαλοαγγειακής νόσου, γνωστικής δυσλειτουργίας κ.α.), αλλά και πληθώρα μετρήσεων όπως το βάρος, το ύψος, η μυϊκή μάζα, η χρήση αλκοόλ, ο εθισμός στη νικοτίνη, το επίπεδο φυσικής άσκησης και ο κορεσμός του οξυγόνου. Στα δεδομένα αυτά πραγματοποιήθηκε προ επεξεργασία και επιλογή χαρακτηριστικών ενώ εφαρμόστηκε ο αλγόριθμος των κ-Μέσων με χρήση της μεθόδου του αγκώνα για επιλογή του αριθμού των συστάδων, ο αλγόριθμος Ιεραρχικής συγκεντρωτικής ομαδοποίησης, ο αλγόριθμος t-SNE και ο αλγόριθμος DBSCAN. Τα αποτελέσματα αξιολογήθηκαν με χρήση των συντελεστών Davies-Bouldin, Calinski-Harabasz και Silhouette. Επιπλέον, χρησιμοποιήθηκε 10-fold cross validation για αξιολόγηση της δυνατότητας ταξινόμησης μεγαλύτερου αριθμού ιατρικών προφίλ με βάση την υπάρχουσα ομαδοποίηση. Από την παραπάνω διαδικασία, η οποία πραγματοποιήθηκε σε Python με χρήση της βιβλιοθήκης scikit-learn, προέκυψαν ενδείξεις επιτυχούς ομαδοποίησης για δύο από τους τέσσερις αλγορίθμους που χρησιμοποιήθηκαν παρά τον υψηλό αριθμό διαστάσεων στο σύνολο δεδομένων εισόδου. el
heal.abstract The use of machine learning and knowledge mining techniques, in conjunction with the increased availability of health data generated by self-monitoring apps, are considered important catalysts in the advancement of personalized medicine capabilities. The scope of this thesis was the clustering of generated medical profiles with similar characteristics by utilizing various clustering algorithms. Medical profiles were generated randomly and stored in a relational database. The data consisted of demographic information for each user (age, gender, educational level) as well as medical measurements encoded using the ICD-10 and SNOMED CT protocols. Information on medical history (history of diabetes, depression, hearing loss, cerebrovascular disease, cognitive impairment, etc.) but also a variety of measurements such as weight, height, muscle mass, alcohol use, nicotine addiction, level of exercise and oxygen saturation were included in our study. Initially, preprocessing and feature selection were performed and then k-Means was applied using the elbow method to select the appropriate number of clusters. Hierarchical Agglomerative Clustering, t-SNE and DBSCAN were also used. Results were evaluated using the Davies-Bouldin Index, the Calinski-Harabasz Index and the Silhouette Score. In addition, 10-fold cross validation was performed to evaluate the performance of a classifier based on the existing clustering. The aforementioned task was performed in Python using the scikit-learn library and the results showed evidence of successful clustering for two of the four algorithms used, despite the high dimensionality of our dataset. en
heal.advisorName Κουτσούρης, Δημήτριος – Διονύσιος el
heal.committeeMemberName Κουτσούρης, Δημήτριος – Διονύσιος el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Ματσόπουλος, Γιώργος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών el
heal.academicPublisherID ntua
heal.numberOfPages 87 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής