Πρόβλεψη δευτεροταγούς δομής πρωτεϊνών με χρήση συνελικτικών νευρωνικών δικτύων προσοχής

Κακολύρης, Αντώνιος; Kakolyris, Antonis

dc.contributor.author	Κακολύρης, Αντώνιος	el
dc.contributor.author	Kakolyris, Antonis	en
dc.date.accessioned	2020-12-09T12:33:52Z
dc.date.available	2020-12-09T12:33:52Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52426
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.20124
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Πρόβλεψη δευτεροταγούς δομής πρωτεϊνών	el
dc.subject	Συνελικτικά νευρωνικά δικτυα	el
dc.subject	Μοντέλα από ακολουθία-σε-ακολουθία	el
dc.subject	Βιολογικές ακολουθίες	el
dc.subject	Αυτο-Προσοχή	el
dc.subject	Protein secondary structure prediction	en
dc.subject	Convolutional neural networks	en
dc.subject	Non local blocks	en
dc.subject	Biological sequences	en
dc.subject	Self-Attention	en
dc.title	Πρόβλεψη δευτεροταγούς δομής πρωτεϊνών με χρήση συνελικτικών νευρωνικών δικτύων προσοχής	el
dc.title	Protein secondary structure prediction with attentional-convolutional neural networks	en
dc.contributor.department	Artificial Intelligence and Learning Systems	el
heal.type	masterThesis
heal.classification	Computer Science	en
heal.language	en
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2020-07-01
heal.abstract	Η μελέτη μιας πληθώρας επιστημονικών τομέων σχετικές με βιολογία και ιατρική, με εφαρμογές στην έρευνα ασθενειών και ανάπτυξης φαρμάκων, εξαρτάται από την μελέτη της λειτουργίας των πρωτεϊνών. Οι πρωτεϊνες ειναι βιομόρια υπεύθυνα για τις βασικές λειτουργίες των ζωντανών οργανισμών. Τα δομικά στοιχεία των πρωτεϊνών ονομάζονται αμινοξέα, και η οργάνωση τους σε ακολουθίες ορίζει την τελική τους δομή. Η δομή των πρωτεϊνών σχετίζεται άμεσα με τη λειτουργία τους. Η πρόβλεψη της δομής των πρωτεϊνών είναι ο τομέας της βιοπληροφορικής που ασχολείται με τον υπολογισμό της δομής μιας πρωτεϊνης δεδομένης της σειράς των αμινοξέων εντός της ακολουθίας. Η πρόβλεψη της δομής των πρωτεϊνών είναι σημαντικής επειδή η ακριβής μέτρηση της πρωτεϊνης είναι μια αργή και πολύ ακριβή διαδικασία, ενώ αντίθετα η σειρά των αμινοξέων είναι πειραματικά πιο προσιτή. Τα τελευταία δέκα χρόνια, η πρόβλεψη αυτή προσεγγίστηκε με τεχνικές βαθιάς μηχανικής μάθησης. Μεταξύ των αρχιτεκτονικών που έχουν προταθεί είναι τα επαναλαμβανόμενα νευρωνικά δίκτυα, τα συνελικτικά δίκτυα τα πυκνά νευρωνικά δίκτυα. Σε αυτή τη διπλωματική εργασία, σχεδιάζεται, μελετάται και εκπαιδεύεται ένα συνελικτικό νευρωνικό δίκτυο για την πρόβλεψη της δευτεροταγούς δομής των πρωτεϊνών. Δοκιμάζονται επίσης νευρώνες αυτο-προσοχής και ένας νέος τρόπος αναπαράστασης των ακολουθιών εισόδου. Τα μοντέλα που εκπαιδεύτηκαν, επιτυγχάνουν μια ακρίβεια συγκρινόμενη με τα πιο ακριβή της βιβλιογραφίας, ενώ παρουσιάζονται ιδέες για της επεξήγηση των αποτελεσμάτων χρησιμοποιώντας τους μηχανισμούς προσοχής.	el
heal.abstract	The study of an array of biological and medical fields, with applications on human disease investigation and medicine, is depended on the study of the function of proteins. Proteins are biomolecules that perform functions that are essential for living organisms. The building blocks of proteins are aminoacids, whose arrangement into sequences defines the overall structures. Protein structure is tightly related to its function. Protein structure prediction, is the field of bioinformatics where the structure of a protein is calculated from the order of aminoacids inside the underlying sequence. The protein structure prediction task is important because the precise measurement of a protein is a slow and very expensive process, while on the contrary, the order of aminoacids is an easier information to extract experimantally. In the last ten years, this task is approached with deep learning techniques. Proposed architectures for this purpose use recurrent neural networks, convolutional neural networks and dense neural networks. In this thesis, a convolutional neural network is designed, studied and trained to predict the secondary structure of proteins. Self attention layers and a novel way to encode input are used. The described single models and enseble models reach an accuracy on par with the state of the art, and ideas on interpretability of the results using the self attention mechanism are also presented.	en
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	68 σ.	el
heal.fullTextAvailability	false