HEAL DSpace

Ανάπτυξη και αξιολόγηση μοντέλου μηχανικής μάθησης για την πρόβλεψη της κυτταρικής πρόσληψης νανοϋλικών

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Θεοδωρή, Αικατερίνη el
dc.contributor.author Theodori, Aikaterini en
dc.date.accessioned 2026-03-02T09:13:02Z
dc.date.available 2026-03-02T09:13:02Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/63656
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.31351
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Νανοσωματίδια el
dc.subject Κυτταρική πρόσληψη el
dc.subject Μηχανική μάθηση el
dc.subject XGBoost en
dc.subject Ανάλυση ερμηνευσιμότητας el
dc.subject Nanoparticles en
dc.subject Cellular uptake en
dc.subject Machine learning en
dc.subject XGBoost en
dc.subject Interpretative analysis en
dc.title Ανάπτυξη και αξιολόγηση μοντέλου μηχανικής μάθησης για την πρόβλεψη της κυτταρικής πρόσληψης νανοϋλικών el
heal.type bachelorThesis
heal.classification Computational methods en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-07-07
heal.abstract The present thesis focuses on the creation of an extensive dataset that is used for the development of a supervised machine learning model that predicts the uptake of nanoparticles by various cell lines. The model predictions of cellular uptake (Nanoparticles/cell) are based on nanoparticles physicochemical properties (Shape, Hydrodynamic diameter, Z-potential, Surface coating), experimental conditions (Nanoparticles concentration, growth medium Ionic strength, Sonication), and cell lines biological characteristics (Cell morphology). Following thorough bibliographical research, 71 experimental studies investigating the in vitro cellular uptake of various nanoparticles were elected and incorporated in the initial dataset as raw data. Through appropriate data preprocessing techniques and by making certain assumptions regarding the shape and density of the nanoparticles, all variables were encoded as continuous or discrete numerical variables. Firstly, the dimensionality of categorical variables was reduced through further grouping, while missing data were imputed using the MICE algorithm (with a Random Forest regression estimator). Categorical variables were numerically encoded via «One-hot encoding», and all input features were normalized using the Z-score method. Additionally, a logarithmic transformation was applied to the target variable to reduce its value range. Thus, an original dataset was constructed, suitable for machine learning applications in the field of nanoinformatics. The data were split into a training and testing subset (ratio 80/20). The optimal hyperparameter values of the XGBoost algorithm were determined by a 10-fold cross-validation, and the fine-tuned model was subsequently evaluated using both standard statistical metrics (R2, ΜΑΕ, MSE, RMSE) and common validation techniques, such as leave-one-out cross-validation and Y-randomization. Finally, the model’s applicability domain was defined via the k-nearest neighbours method (k=5), while interpretative insights into variable relationships were obtained via a SHAP analysis. During model training and validation, the model predictions were found to heavily rely on the Time variable, which was removed in order to allow for the remaining variables’ relationships interpretation. To this end, only the time point which the majority of the experiments included -the 24-hour time point- was retained in the dataset. Following this major size reduction, the number of input features was reduced through a trial-and error process, aiming to develop the simplest yet accurate machine learning model. Indeed, the final XGBoost model achieved an R² metric value of 0.668. The Y randomization process recorded negative R2 values, confirming that the original model did not captures relationships by chance. The SHAP interpretability analysis highlighted nanoparticle Concentration as the most influential factor, positively affecting cellular uptake. Additionally, smaller Hydrodynamic diameters and extreme Z-potential values were found to be associated with increased endocytosis, while the absence of surface coating also promoted nanoparticle uptake in the examined cell lines. Finally, the fibroblast cell morphology and low culture medium Ionic strength were found to enhance nanoparticle internalization. The positive model validation results, along with the interpretative variable relationships that align with patterns observed in numerous experimental studies on endocytosis mechanisms, support the robustness of the proposed approach. The developed model can be used as a tool for further improving the accuracy of cellular uptake predictions, contributing to the reduction of experimental costs and supporting the development of biomedical applications. en
heal.abstract Η παρούσα διπλωματική εργασία επικεντρώνεται στην δημιουργία ενός εκτενούς συνόλου δεδομένων και την χρήση αυτού για την ανάπτυξη μοντέλου επιβλεπόμενης μηχανικής μάθησης που προβλέπει την πρόσληψη νανοϋλικών σε διάφορες κυτταρικές σειρές. Το μοντέλο βασίζει τις προβλέψεις της κυτταρικής πρόσληψης (Νανοσωματίδια/κύτταρο) σε φυσικοχημικά χαρακτηριστικά νανοσωματιδίων (Σχήμα, Υδροδυναμική διάμετρος, Ζ-δυναμικό, Επικάλυψη), πειραματικές συνθήκες (Συγκέντρωση νανοσωματιδίων, Ιοντική ισχύς μέσου καλλιέργειας, Εφαρμογή υπερήχων) και βιολογικές παραμέτρους των κυττάρων (Μορφολογία). Έπειτα από ενδελεχή βιβλιογραφική αναζήτηση, επιλέχθηκαν 71 πειραματικές έρευνες σχετικές με την μελέτη της πρόσληψης διαφόρων νανοσωματιδίων σε κυτταρικές σειρές in vitro και καταγράφηκαν τα πρωτογενή δεδομένα τους. Μέσω κατάλληλων τεχνικών προεπεξεργασίας δεδομένων και με τη θεώρηση ορισμένων παραδοχών σχετικά με το σχήμα και την πυκνότητα των νανοσωματιδίων, όλες οι μεταβλητές κωδικοποιήθηκαν σε συνεχείς ή διακριτές αριθμητικές μεταβλητές. Αρχικά επιχειρήθηκε η μείωση του αριθμού των κατηγοριών των κατηγορικών μεταβλητών μέσω περαιτέρω ομαδοποίησής τους, ενώ οι ελλιπείς τιμές συμπληρώθηκαν μέσω της επαναληπτικής μεθοδολογίας MICE (με χρήση μοντέλου παλινδρόμησης Random Forest). Οι κατηγορικές μεταβλητές κωδικοποιήθηκαν ως αριθμητικές μέσω της μεθόδου «One-hot encoding», και τα δεδομένα εισόδου κανονικοποιήθηκαν με την μέθοδο Z-score. Επίσης, η μεταβλητή εξόδου υπέστη λογαριθμική μετατροπή με σκοπό την μείωση του εύρους τιμών της. Έτσι, διαμορφώθηκε ένα πρωτότυπο σύνολο δεδομένων κατάλληλο για εφαρμογές μηχανικής μάθησης στην περιοχή της νανοπληροφορικής. Το σύνολο των δεδομένων διαχωρίστηκε σε σύνολα εκπαίδευσης και ελέγχου (ποσοστό 80%/20%). Οι βέλτιστες τιμές των υπερπαραμέτρων του μοντέλου XGBoost προσδιορίστηκαν μέσω της μεθοδολογίας «cross-validation» με 10 επαναλήψεις και το μοντέλο αξιολογήθηκε μέσω στατιστικών μέτρων (R2, MAE, MSE, RMSE) και μεθόδων όπως η «leave-one-out cross-validation» και η τυχαία αντικατάσταση των τιμών της μεταβλητής εξόδου (Y-randomization). Τέλος, υπολογίστηκε το πεδίο εφαρμοσιμότητας του μοντέλου με την μέθοδο k-κοντινότερων γειτόνων (k=5) και συζητήθηκαν οι σχέσεις μεταξύ των μεταβλητών μέσω ανάλυσης SHAP. Κατά την εκπαίδευση και αξιολόγηση του μοντέλου παρατηρήθηκε μία σημαντική εξάρτηση των προβλέψεων του μοντέλου από την μεταβλητή του Χρόνου, η οποία κρίθηκε απαραίτητο να αφαιρεθεί ώστε να διευκολυνθεί η ερμηνευτική ανάλυση της συμμετοχής των υπόλοιπων μεταβλτηών. Για τον σκοπό αυτό, επιλέχθηκε η χρονική στιγμή στην οποία είχαν ληφθεί οι περισσότερες μετρήσεις του συνόλου δεδομένων οι 24 ώρες- και τα υπόλοιπα δεδομένα αφαιρέθηκαν. Ακολούθως, μέσω δοκιμής και σφάλματος μειώθηκε ο αριθμός των μεταβλητών εισόδου, στοχεύοντας στην δημιουργία του πιο απλού μοντέλου που προβλέπει με ακρίβεια τα δεδομένα. Το τελικό μοντέλο XGBoost κατάφερε ικανοποιητική πρόβλεψη στα δεδομένα του συνόλου ελέγχου, καταγράφοντας συντελεστή τιμή της μετρικής R2 = 0.668. Κατά την διαδικασία του Y-randomization καταγράφηκαν αρνητικές τιμές R2, γεγονός που αποκλείει την τυχαία εύρεση σχέσεων μεταξύ των μεταβλητών του αρχικού μοντέλου. Η ανάλυση ερμηνευσιμότητας SHAP του μοντέλου ανέδειξε τη Συγκέντρωση των νανοσωματιδίων ως τον σημαντικότερο παράγοντα θετικής επίδρασης στην κυτταρική πρόσληψη. Επιπλέον, μικρότερες Υδροδυναμικές διάμετροι και ακραίες τιμές Ζ δυναμικού φάνηκε πως σχετίζονται με αυξημένη ενδοκυττάρωση, ενώ η απουσία επιφανειακής επικάλυψης ευνοεί επίσης την πρόσληψη νανοσωματιδίων στις κυτταρικές σειρές που μελετήθηκαν. Τέλος, η κυτταρική μορφολογία των ινοβλαστών και η χαμηλή Ιοντική ισχύς του μέσου καλλιέργειας ενισχύουν περαιτέρω την κυτταρική πρόσληψη των νανοσωματιδίων. Τα θετικά αποτελέσματα της αξιολόγησης του μοντέλου, σε συνδυασμό με τις ερμηνευτικές σχέσεις που ευθυγραμμίζονται σε μεγάλο βαθμό με τα «μοτίβα» που αναδεικνύονται σε αρκετές μελέτες του μηχανισμού της ενδοκυττάρωσης νανοσωματιδίων, επιβεβαιώνουν την αξιοπιστία της προσέγγισης. Το μοντέλο αυτό μπορεί να συμβάλλει στη μείωση του κόστους και του χρόνου πειραματικής ανάλυσης, υποστηρίζοντας την ανάπτυξη βιοϊατρικών εφαρμογών. el
heal.advisorName Σαρίμβεης, Χαράλαμπος el
heal.committeeMemberName Σαρίμβεης, Χαράλαμπος el
heal.committeeMemberName Κόλλια, Κωνσταντίνα el
heal.committeeMemberName Μπουρμπάκης, Ιωάννης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Ανάλυσης, Σχεδιασμού και Ανάπτυξης Διεργασιών και Συστημάτων (ΙΙ) el
heal.academicPublisherID ntua
heal.numberOfPages 98 σ. el
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα