dc.contributor.author |
Οικονόμου, Ορέστης
|
el |
dc.contributor.author |
Oikonomou, Orestis
|
en |
dc.date.accessioned |
2020-11-27T10:41:14Z |
|
dc.date.available |
2020-11-27T10:41:14Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/52072 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.19770 |
|
dc.rights |
Default License |
|
dc.subject |
Μηχανική μάθηση |
el |
dc.subject |
Αντιισταμινικά |
el |
dc.subject |
Ισταμίνη |
el |
dc.subject |
Λογιστική παλινδρόμηση |
el |
dc.subject |
Υποδοχέας Η1 |
el |
dc.subject |
Machine learning |
en |
dc.subject |
Chemoinformatics |
en |
dc.subject |
Drug design |
en |
dc.subject |
Antihistamines |
en |
dc.subject |
Receptor H1 |
en |
dc.title |
Πρόβλεψη βιοδραστηριότητας μικρών χημικών μορίων με
χρήση μηχανικής μάθησης και στατιστικών
προσεγγίσεων |
el |
dc.title |
Prediction of molecular bioactivity using machine learning techniques and statistical approaches |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Στατιστική |
el |
heal.classification |
Μηχανική Μάθηση |
el |
heal.classification |
Μαθηματικά |
el |
heal.classification |
Χημειοπληροφορική |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2020-07-17 |
|
heal.abstract |
Αδιαμφισβήτητα, διανύουμε την εποχή της πληροφορίας του τεράστιου όγκου δεδομένων τα οποία
σε συνδυασμό με την εξέλιξη του πεδίου της μηχανικής μάθησης, έχουν επηρεάσει πολλούς επιστημονικούς και βιομηχανικούς τομείς. ΄Ενας τέτοιος τομέας, είναι και η χημειοπληροφορική που χρησιμοποιείται στην ανακάλυψη και στο σχεδιασμό νέων φαρμάκων. Η παρούσα μελέτη, είναι άρρηκτα
συνδεδεμένη με τους προαναφερθέντες τομείς, αφού περιγράφει τη δημιουργία μοντέλων ταξινόμησης
μέσω μεθόδων εποπτευόμενης μάθησης, χρησιμοποιώντας ως δεδομένα χημικά μόρια που έχει ελεγχθεί η δυνατότητά τους να αναστείλουν της πρόσδεσης ισταμίνης στον υποδοχέα Η1. Συγκεκριμένα,
για τη δημιουργία μοντέλων από τις αρχικές παρατηρήσεις δημιουργήθηκαν δύο σύνολα δεδομένων,
ένα που περιγράφει τη βιοδραστηριότητα των χημικών μορίων με δύο κατηγορίες και ένα που την
περιγράφει με τρεις. ΄Ετσι, για την πρώτη περίπτωση χρησιμοποιήθηκαν οι μέθοδοι της πολλαπλής
λογιστικής παλινδρόμησης, της λογιστικής παλινδρόμησης με μέθοδο συρρίκνωσης Lasso, της γραμμικής διακριτικής ανάλυσης και του δένδρου απόφασης. Για τη δεύτερη περίπτωση χρησιμοποιήθηκαν
οι μέθοδοι της πολυωνυμικής λογιστικής παλινδρόμησης, των μηχανών διανυσμάτων υποστήριξης,
του δένδρου απόφασης και του τυχαίου δάσους. ΄Επειτα, συγκρίθηκε η προβλεπτική ικανότητα των
ταξινομητών, μέσω πληθώρας αριθμητικών μετρητών. Στην περίπτωση που η βιοδραστηριότητα των
χημικών μορίων περιγράφεται από δύο κατηγορίες, επικρατέστερο ήταν το μοντέλο λογιστικής παλινδρόμησης με Lasso, με τις μεταβλητές που το περιγράφουν να αποτελούν τους κυριότερους φυσικοχημικούς δείκτες για την πρόβλεψη της ικανότητας ενός χημικού μορίου να αναστείλει την ισταμίνη.
Ενώ, στην περίπτωση, που τα χημικά μόρια ταξινομούνται σε τρεις κατηγορίες, σύμφωνα με τη βιοδραστηριότητά τους, επικρατέστερο ήταν το μοντέλο που παρήχθη από τη μέθοδο τυχαίου δάσους.
Τα μοντέλα αυτά, μελλοντικά, θα μπορούσαν, να χρησιμοποιηθούν για τον έλεγχο νέων χημικών
μορίων, να αναστείλουν την πρόσδεση ισταμίνης στον υποδοχέα Η1, οδηγώντας έτσι γρηγορότερα
σε εργαστηριακή τους μελέτη με σκοπό την παραγωγή νέων αντιισταμινικών φαρμάκων. |
el |
heal.abstract |
Undoubtedly, this is the era of enormous data, which, combined with the evolution of machine
learning, have influenced many scientific and industrial fields. One such area is computational
chemistry, which is a major factor in discovery and design of new drugs. The present study is
inextricably linked to the aforementioned areas, as it describes the creation of classification models
through supervised learning methods, using as data chemical molecules that have been tested for
their ability to inhibit histamine binding to the H1 receptor. Specifically, to create models from
the initial observations, two sets of data were created, one describing the bioactivity of chemical
molecules using two categories and one describing it with three. Thus, for the first case, the
following methods were used: multiple logistic regression, logistic regression with Lasso shrinkage,
linear discriminant analysis and decision trees. In the second case, the following methods were
used: polynomial logistic regression, support vector machines, decision trees and random forests.
The predictive ability of the classifiers was compared using various numerical metrics. In the
case where the bioactivity of the chemical molecules was described by two categories, the Lasso
logistic regression model was the most successful, with the variables describing it being the main
physicochemical indicators for predicting the ability of a chemical molecule to inhibit histamine.
On the other hand, in the case that the chemical molecules were classified into three categories
according to their bioactivity, the model produced by the random forest method was the best. In
the future, these models could be used for testing new chemical molecules to inhibit histamine
binding to the H1 receptor, leading to a faster laboratory study to produce new antihistamines. |
en |
heal.advisorName |
Καρώνη, Χρυσηίς |
el |
heal.committeeMemberName |
Καρώνη, Χρυσηίς |
el |
heal.committeeMemberName |
Κουκουβίνος, Χρήστος |
el |
heal.committeeMemberName |
Στεφανέας, Πέτρος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών |
el |
heal.academicPublisherID |
ntua |
|
heal.fullTextAvailability |
false |
|