Ανάπτυξη μοντέλου μαθηματικού προγραμματισμού για την ομαδοποίηση υλικών και τον υπολογιστικό προσδιορισμό ανεπιθύμητων ιδιοτήτων

Κουτρούμπα, Νικολέττα Μαρία; Koutroumpa, Nikoletta Maria

dc.contributor.author	Κουτρούμπα, Νικολέττα Μαρία
dc.contributor.author	Koutroumpa, Nikoletta Maria	en
dc.date.accessioned	2019-11-25T11:46:14Z
dc.date.available	2019-11-25T11:46:14Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/49461
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.17159
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Νανοπληροφορική	el
dc.subject	Τοξικότητα	el
dc.subject	Read-across	en
dc.subject	Γραμμική παλινδρόμηση	el
dc.subject	Αριστοποίηση	el
dc.subject	Μαθηματικός προγραμματισμός	el
dc.subject	Nanoinformatics	en
dc.subject	Toxicity	en
dc.subject	Mathematical programming	el
dc.subject	Linear regression	el
dc.title	Ανάπτυξη μοντέλου μαθηματικού προγραμματισμού για την ομαδοποίηση υλικών και τον υπολογιστικό προσδιορισμό ανεπιθύμητων ιδιοτήτων	el
heal.type	bachelorThesis
heal.classification	Μαθηματικός προγραμματισμός	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-09-27
heal.abstract	Στα πλαίσια της παρούσας Διπλωματικής Εργασίας αναπτύχθηκε ένα μοντέλο μαθηματικού προγραμματισμού με στόχο την πρόβλεψη της τοξικότητας νανοσωματιδίων σύμφωνα με τη μεθοδολογία read-across. Η μεθοδολογία αυτή εντάσσεται στο πλαίσιο των μη πειραματικών τεχνικών με τις οποίες προβλέπεται η τοξικότητα και άλλες ανεπιθύμητες ιδιότητες νέων υλικών αποφεύγοντας τη χρήση πειραματόζωων. Η τεχνική βασίζεται στην εκτίμηση των ανεπιθύμητων ιδιοτήτων των άγνωστων υλικών χρησιμοποιώντας διαθέσιμα δεδομένα τοξικότητας από παρόμοια υλικά. Σύμφωνα με το διάγραμμα ροής εργασιών των μεθόδων read-across που προτάθηκε από τον Ευρωπαϊκό Οργανισμό Χημικών Προϊόντων (European Chemicals Agency, ECHA), ακολουθείται μία διαδικασία δοκιμής και σφάλματος των υποθέσεων ομαδοποίησης των υλικών, μέχρι να προσδιοριστεί εκείνη η υπόθεση που οδηγεί σε ακριβείς προβλέψεις. Ωστόσο, η διαδικασία αυτή είναι χρονοβόρα και δεν οδηγεί απαραίτητα σε βέλτιστα μοντέλα πρόβλεψης. Σκοπός της Διπλωματικής Εργασίας είναι η αυτοματοποίηση της διαδικασίας εύρεσης της υπόθεσης ομαδοποίησης. Το μοντέλο μαθηματικού προγραμματισμού που αναπτύχθηκε κατατάσσει τα νανοσωματίδια σε καθορισμένες περιοχές του πολυδιάστατου χώρου που ορίζεται από τις «μεταβλητές» (ιδιότητες) τους και προβλέπει την τοξικότητα τους μέσω ενός μοντέλου γραμμικής παλινδρόμησης μοναδικό για κάθε περιοχή. Με αυτό τον τρόπο είναι δυνατή η πρόβλεψη άγνωστων νανοσωματιδίων ανάλογα με την περιοχή που ανήκουν στον χώρο. Τα δεδομένα που χρησιμοποιήθηκαν προέρχονται από τις δημοσιεύσεις των Gajewicz et al. (2015), Walkey et al. (2014), Xia et al. (2011) και Fourches et al. (2010) και αναφέρονται σε νανοσωματίδια μεταλλικών οξειδίων, νανοσωματίδια χρυσού, πολυεπίπεδους νανοσωλήνες άνθρακα και τροποποιημένα μεταλλικά νανοσωματίδια αντίστοιχα. Για τα τέσσερα σύνολα είναι γνωστές ορισμένες ιδιότητες και ένας δείκτης τοξικότητας. Σε πρώτο βήμα, η ομαδοποίηση των νανοσωματιδίων σε περιοχές έγινε επιλέγοντας -μέσα από τη διαδικασία αριστοποίησης- μία ιδιότητα από το σύνολο των ανεξάρτητων μεταβλητών ως μεταβλητή διχοτόμησης («επίλυση σε μια διάσταση») και τα διαθέσιμα δείγματα χωρίστηκαν με βάση αυτή τη μεταβλητή σε δυο ή περισσότερες περιοχές. Η μεταβλητή που επιλέγεται κάθε φορά όπως και τα όρια διάσπασης συνιστούν την υπόθεση ομαδοποίησης. Και τα τέσσερα σύνολα δεδομένων στα οποία εφαρμόστηκε η μεθοδολογία οδήγησαν σε μοντέλα με αρκετά ακριβείς προβλέψεις. Για τα σύνολα δεδομένων τα οποία διέθεταν διαφορετικά είδη ανεξάρτητων μεταβλητών, έγινε κατηγοριοποίηση αυτών ανάλογα με το είδος τους και οι περιοχές καθορίστηκαν από δυο μεταβλητές, μία για κάθε κατηγορία («επίλυση σε δύο διαστάσεις»). Το σύνολο των Gajewicz et al. (2015) που περιέχει κβαντομηχανικές και γεωμετρικές ιδιότητες και των Walkey et al. (2014) με φυσικοχημικές και βιολογικές ιδιότητες μελετήθηκαν με επίλυση σε δύο διαστάσεις και οδήγησαν σε μοντέλα με μεγαλύτερη ευαισθησία και ακρίβεια. Η αξιολόγηση των προβλέψεων έγινε χρήσει του δείκτη εξωτερικής ερμηνεύσιμης διακύμανσης Q_test^2, ο οποίος βελτιώθηκε και για τα δύο σύνολα δεδομένων με την επίλυση σε δύο διαστάσεις. Πιο συγκεκριμένα, για το πρώτο σύνολο η επίλυση σε μία διάσταση οδήγησε σε Q_test^2=0.65 ενώ για διάσπαση σε δύο διαστάσεις προέκυψε Q_test^2=0.80. Στο δεύτερο σύνολο αυξήθηκε η ακρίβεια των προβλέψεων από Q_test^2=0.86 σε Q_test^2=0.93. Για την ανάπτυξη του μοντέλου βελτιστοποίησης και την ανάλυση των αποτελεσμάτων αναπτύχθηκε κώδικας σε γλώσσα MATLAB και χρησιμοποιήθηκε η εργαλειοθήκη YALMIP με την οποία συνδέθηκαν οι επιλύτες Mosek και Gurobi. Από την παρούσα Εργασία προέκυψε η ανακοίνωση «Read-across automated grouping and hazard endpoint predictions of nanoparticles based on mathematical optimization» η οποία παρουσιάστηκε στα πλαίσια του επιστημονικού συνεδρίου 1st International Young Scientist Forum, το οποίο έλαβε χώρα στο Salzburg της Αυστρίας στις 9 και 10/09/2019, υπό την αιγίδα της Γερμανικής Εταιρείας Χημικών Συστημάτων, DECHEMA.	el
heal.abstract	In this diploma thesis, a mathematical programming model is developed based on read-across methodology in order to predict toxicity related endpoints of nanoparticles. The read-across approach is an alternative, non-testing strategy that has been successfully used for the prediction of nanoparticles’ toxicity. Its concept is based on the empirical knowledge that the estimation of the hazardous effects of untested chemicals can be achieved using the available data of similar chemicals. The European Chemicals Agency (ECHA) has presented a specific workflow for grouping and read-across methods that follows a trial-and-error process until the grouping hypothesis produce successful read-across predictions. However, it is time consuming and may not encounter the optimal read-across models. The main purpose of the present work is to automate the procedure of searching for the optimal grouping hypothesis. The developed mathematical programming model sorts the nanoparticles into regions and toxicities are predicted by a linear regression model that is unique to each region. Thus, non-tested nanoparticles’ toxicity can be predicted pursuant to the region they belong. Four datasets were considered for analysis, derived by Gajewicz et al. (2015), Walkey et al. (2014), Xia et al. (2011) and Fourches et al. (2010) which refer to metal oxide nanoparticles, gold nanoparticles, multiwalled carbon nanotubes and manufactured nanoparticles. These datasets also consist of several descriptors and a toxicity index. Initially, the algorithm divides the domain into regions and groups the nanoparticles in these regions by selecting one feature of the available data that corresponds to the best model as the partition feature (“one-dimension problem”). The partition feature and the breakpoints resulting from the optimization problem form the optimal read-across grouping hypothesis. This methodology was applied in all four different datasets and produced accurate predictions. Two of the datasets included different types of descriptors. For these, the descriptors were categorized into sets and the algorithm selected two partition features to define the regions; one of each descriptor set (“two-dimension problem”). The dataset by Gajewicz et al. (2015) included quantum-mechanical and image descriptors while the dataset by Walkey et al. (2014) included physicochemical and biological descriptors. The results of grouping the descriptors and solving the two-dimensional problem led to more accurate models. The reliability predictions of these models were validated using external explained variance 𝑄𝑡𝑒𝑠𝑡2, which was increased in comparison to the results from one-dimension problem. The external explained variance 𝑄𝑡𝑒𝑠𝑡2 for the first dataset was increased from 0.65 to 0.80 while these values for the second dataset reached up to 0.93, whereas when solving the problem in one dimension, to 0.86. The analysis code for the optimization problem was developed in MATLAB programming language. YALMIP toolbox and Mosek and Gurobi softwares were also used to solve the mathematical programming problem. Results of this work were included in the publication entitled «Read-across Automated Grouping and Hazard Endpoint Predictions of Nanoparticles based on Mathematical Optimization» presented orally at the 1st International Young Scientist Forum, that took place at Salzburg in Austria on 9th - 10th September 2019 under the auspices of the German Society for Chemical Apparatus, DECHEMA	en
heal.advisorName	Σαρίμβεης, Χαράλαμπος
heal.committeeMemberName	Κυρανούδης, Χρήστος
heal.committeeMemberName	Αργυρούσης, Χρήστος
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Χημικών Μηχανικών. Τομέας Ανάλυσης, Σχεδιασμού και Ανάπτυξης Διεργασιών και Συστημάτων (ΙΙ)	el
heal.academicPublisherID	ntua
heal.numberOfPages	129 σ.
heal.fullTextAvailability	false