Πρόβλεψη της δευτεροταγούς δομής πρωτεϊνών με τεχνικές μηχανικής μάθησης

Κοσμά, Χρυσούλα; Kosma, Chrysoula

dc.contributor.author	Κοσμά, Χρυσούλα	el
dc.contributor.author	Kosma, Chrysoula	en
dc.date.accessioned	2020-05-26T14:49:06Z
dc.date.available	2020-05-26T14:49:06Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/50664
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.18362
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Protein Secondary	en
dc.subject	Δευτεροταγής Δομή Πρωτεϊνών	el
dc.subject	Natural Language Processing	en
dc.subject	Structure Transformer model	en
dc.subject	Sequence to sequence prediction	en
dc.subject	Deep Learning	en
dc.subject	Πρωτεϊνική ακολουθία	el
dc.subject	Μοντέλα Μηχανικής Μάθησης	el
dc.subject	Μηχανική Μετάφραση	el
dc.subject	Πρόβλεψη ακολουθιών	el
dc.title	Πρόβλεψη της δευτεροταγούς δομής πρωτεϊνών με τεχνικές μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Μηχανική μάθηση	el
heal.classification	Machine learning	en
heal.language	el
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2019-11-12
heal.abstract	Η βιοπληροφορική είναι το επιστημονικό πεδίο της ανάλυσης βιολογικών δεδομένων. Τα βιολογικά δεδομένα ποικίλλουν, από ακολουθίες DNA/RNA, οι οποίες μοντελοποιούνται ως ακολουθίες χαρακτήρων (αποτελούμενες από τέσσερις διαφορετικούς χαρακτήρες Α, G, C, T) στην περιγραφή της δομής πρωτεϊνών και τις ταξινομήσεις διαφορετικών οργανισμών. Μια κοινή προσέγγιση για την ανάλυση αυτών των δεδομένων είναι η εξαντλητική μοντελοποίηση ή η στατιστική ανάλυση τους. Η προσέγγιση της στατιστικής ανάλυσης είναι ένας αποτελεσματικός τρόπος σε αυτά τα προβλήματα, καθώς η πολυπλοκότητα των βιολογικών συστημάτων, που επηρεάζουν τα βιολογικά δεδομένα, είναι υψηλή και πρέπει να ληφθούν υπόψη όλες οι πιθανές αλληλεπιδράσεις μεταξύ των υποσυστημάτων τους. Σε αυτή την κατεύθυνση, τα τελευταία χρόνια, έχουν πραγματοποιηθεί αρκετές εργασίες που προσπαθούν να αναλύσουν βιολογικά δεδομένα με χρήση μηχανικής μάθησης, αποδεικνύοντας ότι τα υπάρχοντα πρότυπα βιολογικών ακολουθιών μπορούν να μοντελοποιηθούν αποτελεσματικά. Ανάμεσα στα πιο γνωστά προβλήματα βιολογικών ακολουθιών είναι το πρόβλημα της Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών, το οποίο στοχεύει στη απεικόνιση ακολουθιών πρωτεϊνών (αποτελούμενων από 22 διακριτούς χαρακτήρες) στις αντίστοιχες ακολουθίες της δευτεροταγούς δομής τους (η οποία συνήθως αποτελείται από 3 ή 8 κατηγορίες χαρακτήρων, που ορίζουν αντίστοιχα τις κωδικοποιήσεις Q3 και Q8). Σε αυτή την εργασία, το δύσκολο πρόβλημα της Q8 κωδικοποίησης της Δευτεροταγούς Δομής των Πρωτεϊνών εξετάζεται διεξοδικά. Οι πιο επιτυχημένες αρχιτεκτονικές που έχουν εφαρμοστεί στο πρόβλημα αυτό έχουν επιτύχει μια ακρίβεια ~71%, χρησιμοποιώντας μια ποικιλία μοντέλων, όπως βαθιά Συνελικτικά Νευρωνικά Δίκτυα, Επαναλαμβανόμενα Νευρωνικά Δίκτυα και μηχανισμούς Προσοχής, καθώς και συνδυασμούς των διαφόρων αρχιτεκτονικών. Δεδομένου ότι το πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών είναι ένα πρόβλημα πρόβλεψης ακολουθίας από ακολουθία, με τις ακολουθίες να αποτελούνται από χαρακτήρες, τα μοντέλα Επεξεργασίας Φυσικής Γλώσσας μπορούν να εφαρμοστούν στα δεδομένα και να τα χειριστούν ως ακολουθίες κειμένου. Σε αυτό το πλαίσιο, το πρόβλημα μπορεί να θεωρηθεί ως μια εργασία Μηχανικής Μετάφρασης από μια γλώσσα (αποτελούμενη από 22 χαρακτήρες για τα υπολείμματα των πρωτεϊνών) σε άλλη (αποτελούμενη από 8 διαφορετικούς χαρακτήρες που ορίζουν την ακολουθία της δευτεροταγούς δομής). Το μοντέλο με την μεγαλύτερη ακρίβεια στη Μηχανική Μετάφραση κειμένου είναι το μοντέλο του Μεταφραστή (Transformer), το οποίο και εφαρμόζεται σε αυτή την εργασία στο πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών. Το μοντέλο αυτό επιτυγχάνει μια αξιοπρεπή ακρίβεια ~64.4% μετά από βασική ρύθμιση των υπερπαραμέτρων του και με τη χρήση ενός λεξιλογίου που αποτελείται από λέξεις ενός χαρακτήρα σε κάθε ακολουθία. Περαιτέρω βελτιώσεις σε αυτήν την αρχιτεκτονική, όπως πειράματα με διαφορετικά λεξιλόγια (με την εξαγωγή n-χαρακτήρων από τις ακολουθίες και τη χρήση τους ως λέξεις) ή χρήση προ-εκπαιδευμένων ενσωματώσεων από μεγαλύτερα σύνολα δεδομένων πρωτεϊνικών ακολουθιών, ενδεχομένως να επιτύχουν μεγαλύτερη ακρίβεια σε αυτό το πρόβλημα και να αναδείξουν το συνολικό μοτίβο της δομής των πρωτεϊνών.	el
heal.abstract	Bioinformatics is the scientific field of analyzing biological data. Biological data vary from DNA/RNA sequences, which can be modelled as character sequences (consisting of four distinct characters A, G, C, T) to sequences describing the protein structure and the taxonomies of different organisms. A common approach to analyze these data is by extensive modelling or by statistical analysis. The approach of statistical analysis is an effective way in these problems since the complexity of the biological systems affecting biological data is high and all the possible interactions between subsystems should be examined. In this direction, in the last years, several works that analyze biological data using machine learning (ML) have been applied, demonstrating that the existing patterns of biological sequences can be effectively modelled. Among biological sequences’ most well-known problems, lies the Protein Secondary Structure Prediction problem (PSSP), which aims to map sequences of proteins (consisting of 22 distinct characters) to their corresponding sequences of secondary structure (which is usually modelled by 3 or 8 classes of characters, defining the Q3 and Q8 encodings respectively). In this work, the more challenging Q8 class problem is thoroughly examined. State-of-the-art architectures have achieved an accuracy of ~71%, using a variety of models, consisting of deep CNNs, RNNs and attention layers and ensemble techniques. Since the PSSP problem is a sequence-to-sequence problem, where sequences consist of characters, Natural Language Processing models can be applied to the data and handle them as text sequences. In these terms, the PSSP task can be considered a Machine translation task from one language (consisting of 22 characters for protein residues) to another (consisting of 8 different characters that define the sequence of secondary structure). The state-of-the-art model in Machine Translation, Transformer, is applied in this work to the PSSP problem proving to achieve a decent accuracy of ~64.4% with basic parameter tuning and a vocabulary consisting of 1-grams as words. Further improvements in this architecture, including experiments with different vocabularies (n-grams extraction from sequences) or the use of pretrained embeddings from larger protein datasets, are promising for achieving a higher accuracy on this task and for unravelling the unique context of protein sequences’ structure.	en
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Φωτάκης, Δημήτριος	el
heal.committeeMemberName	Σταφυλοπάτης, Γεώργιος-Ανδρέας	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	100 σ.
heal.fullTextAvailability	false