HEAL DSpace

Πρόβλεψη βιοδραστηριότητας μικρών χημικών μορίων με χρήση μηχανικής μάθησης και στατιστικών προσεγγίσεων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Οικονόμου, Ορέστης el
dc.contributor.author Oikonomou, Orestis en
dc.date.accessioned 2020-11-27T10:41:14Z
dc.date.available 2020-11-27T10:41:14Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52072
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.19770
dc.rights Default License
dc.subject Μηχανική μάθηση el
dc.subject Αντιισταμινικά el
dc.subject Ισταμίνη el
dc.subject Λογιστική παλινδρόμηση el
dc.subject Υποδοχέας Η1 el
dc.subject Machine learning en
dc.subject Chemoinformatics en
dc.subject Drug design en
dc.subject Antihistamines en
dc.subject Receptor H1 en
dc.title Πρόβλεψη βιοδραστηριότητας μικρών χημικών μορίων με χρήση μηχανικής μάθησης και στατιστικών προσεγγίσεων el
dc.title Prediction of molecular bioactivity using machine learning techniques and statistical approaches en
heal.type bachelorThesis
heal.classification Στατιστική el
heal.classification Μηχανική Μάθηση el
heal.classification Μαθηματικά el
heal.classification Χημειοπληροφορική el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-07-17
heal.abstract Αδιαμφισβήτητα, διανύουμε την εποχή της πληροφορίας του τεράστιου όγκου δεδομένων τα οποία σε συνδυασμό με την εξέλιξη του πεδίου της μηχανικής μάθησης, έχουν επηρεάσει πολλούς επιστημονικούς και βιομηχανικούς τομείς. ΄Ενας τέτοιος τομέας, είναι και η χημειοπληροφορική που χρησιμοποιείται στην ανακάλυψη και στο σχεδιασμό νέων φαρμάκων. Η παρούσα μελέτη, είναι άρρηκτα συνδεδεμένη με τους προαναφερθέντες τομείς, αφού περιγράφει τη δημιουργία μοντέλων ταξινόμησης μέσω μεθόδων εποπτευόμενης μάθησης, χρησιμοποιώντας ως δεδομένα χημικά μόρια που έχει ελεγχθεί η δυνατότητά τους να αναστείλουν της πρόσδεσης ισταμίνης στον υποδοχέα Η1. Συγκεκριμένα, για τη δημιουργία μοντέλων από τις αρχικές παρατηρήσεις δημιουργήθηκαν δύο σύνολα δεδομένων, ένα που περιγράφει τη βιοδραστηριότητα των χημικών μορίων με δύο κατηγορίες και ένα που την περιγράφει με τρεις. ΄Ετσι, για την πρώτη περίπτωση χρησιμοποιήθηκαν οι μέθοδοι της πολλαπλής λογιστικής παλινδρόμησης, της λογιστικής παλινδρόμησης με μέθοδο συρρίκνωσης Lasso, της γραμμικής διακριτικής ανάλυσης και του δένδρου απόφασης. Για τη δεύτερη περίπτωση χρησιμοποιήθηκαν οι μέθοδοι της πολυωνυμικής λογιστικής παλινδρόμησης, των μηχανών διανυσμάτων υποστήριξης, του δένδρου απόφασης και του τυχαίου δάσους. ΄Επειτα, συγκρίθηκε η προβλεπτική ικανότητα των ταξινομητών, μέσω πληθώρας αριθμητικών μετρητών. Στην περίπτωση που η βιοδραστηριότητα των χημικών μορίων περιγράφεται από δύο κατηγορίες, επικρατέστερο ήταν το μοντέλο λογιστικής παλινδρόμησης με Lasso, με τις μεταβλητές που το περιγράφουν να αποτελούν τους κυριότερους φυσικοχημικούς δείκτες για την πρόβλεψη της ικανότητας ενός χημικού μορίου να αναστείλει την ισταμίνη. Ενώ, στην περίπτωση, που τα χημικά μόρια ταξινομούνται σε τρεις κατηγορίες, σύμφωνα με τη βιοδραστηριότητά τους, επικρατέστερο ήταν το μοντέλο που παρήχθη από τη μέθοδο τυχαίου δάσους. Τα μοντέλα αυτά, μελλοντικά, θα μπορούσαν, να χρησιμοποιηθούν για τον έλεγχο νέων χημικών μορίων, να αναστείλουν την πρόσδεση ισταμίνης στον υποδοχέα Η1, οδηγώντας έτσι γρηγορότερα σε εργαστηριακή τους μελέτη με σκοπό την παραγωγή νέων αντιισταμινικών φαρμάκων. el
heal.abstract Undoubtedly, this is the era of enormous data, which, combined with the evolution of machine learning, have influenced many scientific and industrial fields. One such area is computational chemistry, which is a major factor in discovery and design of new drugs. The present study is inextricably linked to the aforementioned areas, as it describes the creation of classification models through supervised learning methods, using as data chemical molecules that have been tested for their ability to inhibit histamine binding to the H1 receptor. Specifically, to create models from the initial observations, two sets of data were created, one describing the bioactivity of chemical molecules using two categories and one describing it with three. Thus, for the first case, the following methods were used: multiple logistic regression, logistic regression with Lasso shrinkage, linear discriminant analysis and decision trees. In the second case, the following methods were used: polynomial logistic regression, support vector machines, decision trees and random forests. The predictive ability of the classifiers was compared using various numerical metrics. In the case where the bioactivity of the chemical molecules was described by two categories, the Lasso logistic regression model was the most successful, with the variables describing it being the main physicochemical indicators for predicting the ability of a chemical molecule to inhibit histamine. On the other hand, in the case that the chemical molecules were classified into three categories according to their bioactivity, the model produced by the random forest method was the best. In the future, these models could be used for testing new chemical molecules to inhibit histamine binding to the H1 receptor, leading to a faster laboratory study to produce new antihistamines. en
heal.advisorName Καρώνη, Χρυσηίς el
heal.committeeMemberName Καρώνη, Χρυσηίς el
heal.committeeMemberName Κουκουβίνος, Χρήστος el
heal.committeeMemberName Στεφανέας, Πέτρος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής