Development of Interpretable Machine Learning Models to Support Diabetes Management

Athanasiou, Maria; Athanasiou, Maria

dc.contributor.author	Athanasiou, Maria	el
dc.contributor.author	Athanasiou, Maria	en
dc.date.accessioned	2023-06-30T09:36:35Z
dc.date.available	2023-06-30T09:36:35Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/57853
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25550
dc.rights	Default License
dc.subject	Diabetes Mellitus	en
dc.subject	Machine Learning	en
dc.subject	Interpretability	en
dc.subject	Unbalanced Data	en
dc.subject	Risk Prediction	en
dc.subject	Σακχαρώδης Διαβήτης	el
dc.subject	Μηχανική Μάθηση	el
dc.subject	Ερμηνευσιμότητα	el
dc.subject	Μη Ισορροπημένα Δεδομένα	el
dc.subject	Εκτίμηση Κινδύνου	el
dc.title	Development of Interpretable Machine Learning Models to Support Diabetes Management	en
dc.title	Aνάπτυξη Ερμηνεύσιμων Μοντέλων Μηχανικής Μάθησης για την Υποστήριξη της Διαχείρισης του Σακχαρώδους Διαβήτη	el
dc.contributor.department	Biomedical Simulations and Imaging Laboratory	el
heal.type	doctoralThesis
heal.classification	Biomedical Engineering	en
heal.language	en
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2023-02-14
heal.abstract	Στη Διατριβή σχεδιάζονται, αναπτύσσονται και αξιολογούνται ερμηνεύσιμα μοντέλα μηχανικής μάθησης για την υποστήριξη ιατρικών αποφάσεων. Οι μέθοδοι που παρουσιάζονται αξιοποιούν ετερογενή δεδομένα και τεχνολογίες ανθρωποκεντρικής Τεχνητής Νοημοσύνης και αντιμετωπίζουν θέματα όπως η μη ισορροπημένη φύση των διαθέσιμων δεδομένων και η ανάγκη παραγωγής ερμηνεύσιμων αποφάσεων με στόχο την ανάπτυξη πρωτότυπων μεθοδολογικών πλαισίων για τη δημιουργία αξιόπιστων συστημάτων υποστήριξης αποφάσεων υγείας. Το επιδημιολογικό μοντέλο του Σακχαρώδους Διαβήτη (ΣΔ) και το φάσμα των κλινικών περιπτώσεων χρήσης που προσφέρει καθιστούν αυτή τη μεταβολική διαταραχή κατάλληλη για την ανάπτυξη και την αξιολόγηση των μοντέλων. Πιο συγκεκριμένα, χρησιμοποιούνται δεδομένα εργαστηριακών μετρήσεων, Ηλεκτρονικού Φακέλου Υγείας (ΗΦΥ), και καταγραφών γλυκόζης-ινσουλίνης με στόχο την ανάπτυξη ερμηνεύσιμων μοντέλων για την εκτίμηση της εξέλιξης της υγείας των ατόμων με ΣΔ καθώς και εξατομικευμένων συστημάτων υποστήριξης των ατόμων με ΣΔ προς την επίτευξη ορθού γλυκαιμικού ελέγχου. Στο πρώτο μέρος της διατριβής αναπτύσσονται ερμηνεύσιμα μοντέλα για την εκτίμηση διακινδύνευσης στις περιπτώσεις καρδιαγγειακής νόσου σε άτομα με Σακχαρώδη Διαβήτη Τύπου 2 (ΣΔΤ2) και νοσηλείας και επανανοσηλείας λόγω διαβητικής κετοξέωσης σε άτομα με Σακχαρώδη Διαβήτη Τύπου 1 (ΣΔΤ1). Για την αποτελεσματική διαχείριση της μη ισορροπημένης φύσης των χρησιμοποιούμενων συνόλων δεδομένων, υιοθετείται κατάλληλη προσέγγιση συλλογικής μάθησης βασισμένη στην υποδειγματοληψία με στόχο την εκπαίδευση επιμέρους μοντέλων και τον συνδυασμό των αποφάσεών τους για την εξαγωγή του τελικού κινδύνου. Η παραγωγή επεξηγήσεων επί των αποφάσεων των συλλογικών μοντέλων βασίζεται στην αξιοποίηση των μεθόδων ερμηνευσιμότητας SHapley Additive exPlanations (SHAP) και Local Interpretable Model-agnostic Explanations (LIME). Για την ανάπτυξη και την αξιολόγηση των υπολογιστικών μοντέλων εκτίμησης του καρδιαγγειακού κινδύνου χρησιμοποιούνται δεδομένα 560 ατόμων με ΣΔΤ2, που παραχωρήθηκαν από το Ιπποκράτειο Νοσοκομείο Αττικής. Αρχικά, διερευνάται η συνδυασμένη χρήση αυτοοργανούμενων χαρτών και νευρωνικών δικτύων με κυματιδιακές συναρτήσεις ενεργοποίησης για την εκπαίδευση των επιμέρους μοντέλων καθώς και η εφαρμογή διαφορετικών συνδυαστικών σχημάτων για την εκτίμηση της τελικής πιθανότητας. Στη συνέχεια, αναπτύσσεται ερμηνεύσιμο υπολογιστικό μοντέλο για την εκτίμηση του καρδιαγγειακού κινδύνου βασισμένο στη χρήση του αλγορίθμου ενίσχυσης XGBoost και της μεθόδου ερμηνευσιμότητας Tree SHAP. Για την ανάπτυξη και την αξιολόγηση του ερμηνεύσιμου μοντέλου εκτίμησης του κινδύνου νοσηλείας και επανανοσηλείας λόγω διαβητικής κετοξέωσης σε άτομα με ΣΔΤ1 χρησιμοποιούνται δεδομένα 127 παιδιών και εφήβων με ΣΔΤ1 από τη βάση δεδομένων ”SWEET”, που παραχωρήθηκαν από το Νοσοκομείο Παίδων ”Η Αγία Σοφία”. Το μοντέλο λαμβάνει ως είσοδο δημογραφικά, σωματομετρικά και κλινικά δεδομένα, καθώς και δεδομένα θεραπείας, και εξάγει την πιθανότητα νοσηλείας και επανανοσηλείας σε βάθος ενός έτους. Η ανάπτυξη του μοντέλου βασίζεται στη χρήση των Αναδρομικών Νευρωνικών Δικτύων Μακράς-Βραχείας Μνήμης (Long Short-Term Memory - LSTM), τα οποία επιλέγονται λόγω της ικανότητάς τους να διαχειρίζονται αποτελεσματικά σειριακά δεδομένα, και στην εφαρμογή της μεθόδου ερμηνευσιμότητας LIME. Τα προτεινόμενα μοντέλα αξιολογούνται ως προς τη διακριτική τους ικανότητα, καθώς και ως προς την ικανότητά τους να παράγουν ακριβείς εκτιμήσεις διακινδύνευσης. Επιπλέον, πραγματοποιείται ανάλυση των αποτελεσμάτων των μεθόδων ερμηνευσιμότητας με στόχο την ανάδειξη της επίδρασης των πιο καθοριστικών παραγόντων διακινδύνευσης καθώς και των υποκείμενων αλληλεπιδράσεων μεταξύ διαφορετικών παραγόντων διακινδύνευσης. Η αποτελεσματική ρύθμιση της μεταγευματικής απόκρισης των επιπέδων γλυκόζης στις διαταραχές γεύματος αποτελεί προϋπόθεση προς την επίτευξη ορθού γλυκαιμικού ελέγχου. Με στόχο την αντιμετώπιση αυτής της ουσιαστικής πρόκλησης, στο δεύτερο μέρος της διατριβής παρουσιάζονται εξατομικευμένα συστήματα για την αυτόματη ανίχνευση διαταραχών γεύματος και την εκτίμηση προγευματικών δόσεων ινσουλίνης σε άτομα με ΣΔΤ1 που εφαρμόζουν Διατάξεις Συνεχούς Μέτρησης Γλυκόζης (ΔΣΜΓ) και Αντλίες Συνεχούς Έγχυσης Ινσουλίνης (ΑΣΕΙ). Για την ανάπτυξη και την αξιολόγηση της απόδοσης των προτεινόμενων συστημάτων χρησιμοποιούνται δεδομένα in silico ατόμων με ΣΔΤ1, που διατίθενται μέσω του προσομοιωτή UVA/PADOVA T1DM. Η ανάπτυξη των εξατομικευμένων μοντέλων για την αυτόματη ανίχνευση διαταραχών γεύματος βασίζεται στην εφαρμογή μιας προσέγγισης συλλογικής μάθησης και στη χρήση των LSTM, που αξιοποιούνται λόγω της ικανότητάς τους να διαχειρίζονται αποτελεσματικά δεδομένα χρονοσειρών. Τα μοντέλα δέχονται ως είσοδο δεδομένα καταγραφών γλυκόζης από ΔΣΜΓ αλλά και πληροφορίες σχετικά με τη χρονική στιγμή κατανάλωσης των λαμβανόμενων γευμάτων και αξιολογούνται ως προς τη διακριτική τους ικανότητα, την ταχύτητα ανίχνευσης, καθώς και ως προς την ικανότητά τους να διαχειρίζονται τη διαφορετική συμπεριφορά του μεταβολισμού γλυκόζης που παρατηρείται μεταξύ των ατόμων με ΣΔΤ1. Το σύστημα εκτίμησης προγευματικών δόσεων ινσουλίνης σε άτομα με ΣΔΤ1 στοχεύει στην αποτελεσματική διαχείριση των διαταραχών γεύματος εφαρμόζοντας μια εξατομικευμένη προσέγγιση, ικανή να προσαρμόζεται στις παραμέτρους και τις απαιτήσεις κάθε ατόμου, με σκοπό τη ρύθμιση των μεταγευματικών επιπέδων γλυκόζης εντός των επιθυμητών ορίων. Η ανάπτυξη του συστήματος βασίζεται στη συνδυασμένη χρήση της Συλλογιστικής Βασισμένης σε Περιπτώσεις (Case- Based Reasoning-CBR) και των αυτοοργανούμενων χαρτών. Με τη μέθοδο του CBR, η επίλυση νέων προβλημάτων, δηλαδή ο υπολογισμός της προγευματικής δόσης ινσουλίνης για το τρέχον γεύμα, βασίζεται στην επαναχρησιμοποίηση παλαιότερων λύσεων (προγευματικών δόσεων) σε ήδη γνωστά προβλήματα (γεύματα) του ασθενούς. Οι αυτο-οργανούμενοι χάρτες αξιοποιούνται για την ομαδοποίηση των περιπτώσεων γευμάτων του ασθενούς με βάση τη χωρική τους συσχέτιση, επιτρέποντας για κάθε νέα είσοδο την επαναχρησιμοποίηση όμοιων με αυτήν περιπτώσεων για τον υπολογισμό της κατάλληλης προγευματικής δόσης ινσουλίνης. Το σύστημα αξιολογείται ως προς την ικανότητά του να διαχειρίζεται αποτελεσματικά τις διαταραχές γεύματος, καθώς και τις διαφορές του μεταβολισμού γλυκόζης που υφίστανται μεταξύ των ατόμων με ΣΔΤ1 αλλά και στο ίδιο το άτομο κατά τη διάρκεια της ημέρας.	el
heal.abstract	The present thesis aims at the design, development, and evaluation of interpretable machine learning models to support decision making in Health. The proposed methods leverage heterogeneous data along with human-centered Artificial Intelligence (AI) technologies and address issues such as the unbalanced nature of the available data and the need to produce interpretable decisions towards the development of novel methodological frameworks that enable the realization of reliable decision support systems in Health. Considering the epidemiological model of Diabetes Mellitus (DM) and the range of clinical use cases it entails, the metabolic disorder of DM is selected for the models’ development and evaluation. More specifically, data from Electronic Health Records (EHR), laboratory measurements, and glucose-insulin records are utilized towards the development of interpretable risk prediction models able to support healthcare professionals in making informed decisions regarding the health status of people with DM as well as computational systems empowering people with DM in achieving optimal glycemic control. The first part of the thesis focuses on the development of interpretable prediction models for (i) the risk incidence of Cardiovascular Disease (CVD) in patients with Type 2 Diabetes Mellitus (T2DM) and (ii) the risk assessment of hospitalization and re-hospitalization due to Diabetic Ketoacidosis (DKA) or Hyperglycemia with Ketosis (HK) in patients with Type 1 Diabetes Mellitus (T1DM). To handle the unbalanced nature of the used datasets, an ensemble learning strategy is adopted towards the generation of multiple individual models and the combination of their decisions for the calculation of the final risk scores. Explanations on the models’ decisions are produced through leveraging the SHapley Additive exPlanations (SHAP) method and the Local Interpretable Model-agnostic Explanations (LIME) method. The development and evaluation of computational models able to assess the CVD risk incidence in patients with T2DM is based on data collected from a 5-year follow up of 560 T2DM individuals at the Hippokration General Hospital of Athens. The predictive power of Self- Organizing Maps (SOM) and Hybrid Wavelet Neural Networks (HWNNs) along with the use of various combination schemes are firstly investigated towards building different ensemble models. The proposed ensemble learning strategy is subsequently deployed together with the XGBoost algorithm and the Tree SHAP interpretability method towards the development of an interpretable risk prediction model for the CVD incidence in patients with T2DM. In terms of the interpretable model for the assessment of hospitalization and re-hospitalization risk due to DKA or HK in youth with T1DM, data collected from a two-year follow-up of 127 T1DM patients at the “Agia Sofia” Children’s Hospital within the framework of the “SWEET” Initiative, are used for development and evaluation purposes. Frequently identified risk factors for recurrent hospital admissions due to DKA or HK are considered to compose the model’s input space. Long Short-Term Memory Neural Networks (LSTM) and their efficiency in handling sequential data are leveraged for building the ensemble model while the LIME method is deployed towards the generation of explanations on the ensemble model’s decisions. The models’ predictive performance is assessed in terms of discrimination and calibration. An explanatory analysis is also carried out to provide evidence regarding the proposed methods’ ability to capture risk factors’ influence and underlying interactions’ effects. The regulation of postprandial glucose response after meal ingestions constitutes an arduous task towards achieving optimal glycemic control. With the aim of addressing this challenge, the second part of the thesis proposes personalized systems for automated meal detection and the estimation of prandial insulin boluses in people with T1DM applying Continuous Glucose Monitoring Systems (CGMS) and Continuous Subcutaneous Insulin Infusion Pumps (CSIIP). Data generated from the in silico patients of the UVA Padova T1DM Simulator are used for the development and evaluation of the proposed systems. The development of personalized computational models for the detection of meal disturbances in people with T1DM is based on the deployment of an ensemble learning strategy and LSTM, which are leveraged due to their ability to efficiently handle time-series data. Glucose measurements provided by the CGMS as well as information about the ingested meals are considered for composing the models’ input space. The models are assessed in terms of their discrimination ability and speed of detection as well as their ability to effectively handle the inter-subject variability among patients with T1DM. A personalized insulin bolus recommendation system for people with T1DM is subsequently presented. The system aims at effectively handling meal disturbances by leveraging a personalized approach, able to adjust to the specific parameters and needs that each patient may have, with the aim of maintaining postprandial blood glucose levels within the normal range. The development of the insulin bolus recommendation system relies on the combined use of Case-Based Reasoning (CBR) and SOM. By utilizing CBR, the solution to a new problem (i.e., new meal) is based on the solutions (i.e., prandial insulin boluses) of similar past problems (i.e., past meals). SOM are deployed to cluster individual meal cases and enable for each query case the identification and retrieval of similar cases towards the calculation of an optimal prandial insulin bolus. The system is assessed in terms of its ability to effectively handle meal disturbances as well as the inter- and intra-subject variability.	en
heal.advisorName	Νικήτα, Κωνσταντίνα	el
heal.committeeMemberName	Nikita, Konstantina
heal.committeeMemberName	Koutsouris, Dimitrios - Dionysios
heal.committeeMemberName	Stamou, Georgios
heal.committeeMemberName	Voulodimos, Athanasios
heal.committeeMemberName	Gastounioti, Aimilia
heal.committeeMemberName	Rontogiannis, Athanasios
heal.committeeMemberName	Golemati, Spyretta
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	181 σ.	el
heal.fullTextAvailability	false