HEAL DSpace

Πρόβλεψη της δευτεροταγούς δομής πρωτεϊνών με τεχνικές μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κοσμά, Χρυσούλα el
dc.contributor.author Kosma, Chrysoula en
dc.date.accessioned 2020-05-26T14:49:06Z
dc.date.available 2020-05-26T14:49:06Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/50664
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.18362
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Protein Secondary en
dc.subject Δευτεροταγής Δομή Πρωτεϊνών el
dc.subject Natural Language Processing en
dc.subject Structure Transformer model en
dc.subject Sequence to sequence prediction en
dc.subject Deep Learning en
dc.subject Πρωτεϊνική ακολουθία el
dc.subject Μοντέλα Μηχανικής Μάθησης el
dc.subject Μηχανική Μετάφραση el
dc.subject Πρόβλεψη ακολουθιών el
dc.title Πρόβλεψη της δευτεροταγούς δομής πρωτεϊνών με τεχνικές μηχανικής μάθησης el
heal.type bachelorThesis
heal.classification Μηχανική μάθηση el
heal.classification Machine learning en
heal.language el
heal.access campus
heal.recordProvider ntua el
heal.publicationDate 2019-11-12
heal.abstract Η βιοπληροφορική είναι το επιστημονικό πεδίο της ανάλυσης βιολογικών δεδομένων. Τα βιολογικά δεδομένα ποικίλλουν, από ακολουθίες DNA/RNA, οι οποίες μοντελοποιούνται ως ακολουθίες χαρακτήρων (αποτελούμενες από τέσσερις διαφορετικούς χαρακτήρες Α, G, C, T) στην περιγραφή της δομής πρωτεϊνών και τις ταξινομήσεις διαφορετικών οργανισμών. Μια κοινή προσέγγιση για την ανάλυση αυτών των δεδομένων είναι η εξαντλητική μοντελοποίηση ή η στατιστική ανάλυση τους. Η προσέγγιση της στατιστικής ανάλυσης είναι ένας αποτελεσματικός τρόπος σε αυτά τα προβλήματα, καθώς η πολυπλοκότητα των βιολογικών συστημάτων, που επηρεάζουν τα βιολογικά δεδομένα, είναι υψηλή και πρέπει να ληφθούν υπόψη όλες οι πιθανές αλληλεπιδράσεις μεταξύ των υποσυστημάτων τους. Σε αυτή την κατεύθυνση, τα τελευταία χρόνια, έχουν πραγματοποιηθεί αρκετές εργασίες που προσπαθούν να αναλύσουν βιολογικά δεδομένα με χρήση μηχανικής μάθησης, αποδεικνύοντας ότι τα υπάρχοντα πρότυπα βιολογικών ακολουθιών μπορούν να μοντελοποιηθούν αποτελεσματικά. Ανάμεσα στα πιο γνωστά προβλήματα βιολογικών ακολουθιών είναι το πρόβλημα της Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών, το οποίο στοχεύει στη απεικόνιση ακολουθιών πρωτεϊνών (αποτελούμενων από 22 διακριτούς χαρακτήρες) στις αντίστοιχες ακολουθίες της δευτεροταγούς δομής τους (η οποία συνήθως αποτελείται από 3 ή 8 κατηγορίες χαρακτήρων, που ορίζουν αντίστοιχα τις κωδικοποιήσεις Q3 και Q8). Σε αυτή την εργασία, το δύσκολο πρόβλημα της Q8 κωδικοποίησης της Δευτεροταγούς Δομής των Πρωτεϊνών εξετάζεται διεξοδικά. Οι πιο επιτυχημένες αρχιτεκτονικές που έχουν εφαρμοστεί στο πρόβλημα αυτό έχουν επιτύχει μια ακρίβεια ~71%, χρησιμοποιώντας μια ποικιλία μοντέλων, όπως βαθιά Συνελικτικά Νευρωνικά Δίκτυα, Επαναλαμβανόμενα Νευρωνικά Δίκτυα και μηχανισμούς Προσοχής, καθώς και συνδυασμούς των διαφόρων αρχιτεκτονικών. Δεδομένου ότι το πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών είναι ένα πρόβλημα πρόβλεψης ακολουθίας από ακολουθία, με τις ακολουθίες να αποτελούνται από χαρακτήρες, τα μοντέλα Επεξεργασίας Φυσικής Γλώσσας μπορούν να εφαρμοστούν στα δεδομένα και να τα χειριστούν ως ακολουθίες κειμένου. Σε αυτό το πλαίσιο, το πρόβλημα μπορεί να θεωρηθεί ως μια εργασία Μηχανικής Μετάφρασης από μια γλώσσα (αποτελούμενη από 22 χαρακτήρες για τα υπολείμματα των πρωτεϊνών) σε άλλη (αποτελούμενη από 8 διαφορετικούς χαρακτήρες που ορίζουν την ακολουθία της δευτεροταγούς δομής). Το μοντέλο με την μεγαλύτερη ακρίβεια στη Μηχανική Μετάφραση κειμένου είναι το μοντέλο του Μεταφραστή (Transformer), το οποίο και εφαρμόζεται σε αυτή την εργασία στο πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών. Το μοντέλο αυτό επιτυγχάνει μια αξιοπρεπή ακρίβεια ~64.4% μετά από βασική ρύθμιση των υπερπαραμέτρων του και με τη χρήση ενός λεξιλογίου που αποτελείται από λέξεις ενός χαρακτήρα σε κάθε ακολουθία. Περαιτέρω βελτιώσεις σε αυτήν την αρχιτεκτονική, όπως πειράματα με διαφορετικά λεξιλόγια (με την εξαγωγή n-χαρακτήρων από τις ακολουθίες και τη χρήση τους ως λέξεις) ή χρήση προ-εκπαιδευμένων ενσωματώσεων από μεγαλύτερα σύνολα δεδομένων πρωτεϊνικών ακολουθιών, ενδεχομένως να επιτύχουν μεγαλύτερη ακρίβεια σε αυτό το πρόβλημα και να αναδείξουν το συνολικό μοτίβο της δομής των πρωτεϊνών. el
heal.abstract Bioinformatics is the scientific field of analyzing biological data. Biological data vary from DNA/RNA sequences, which can be modelled as character sequences (consisting of four distinct characters A, G, C, T) to sequences describing the protein structure and the taxonomies of different organisms. A common approach to analyze these data is by extensive modelling or by statistical analysis. The approach of statistical analysis is an effective way in these problems since the complexity of the biological systems affecting biological data is high and all the possible interactions between subsystems should be examined. In this direction, in the last years, several works that analyze biological data using machine learning (ML) have been applied, demonstrating that the existing patterns of biological sequences can be effectively modelled. Among biological sequences’ most well-known problems, lies the Protein Secondary Structure Prediction problem (PSSP), which aims to map sequences of proteins (consisting of 22 distinct characters) to their corresponding sequences of secondary structure (which is usually modelled by 3 or 8 classes of characters, defining the Q3 and Q8 encodings respectively). In this work, the more challenging Q8 class problem is thoroughly examined. State-of-the-art architectures have achieved an accuracy of ~71%, using a variety of models, consisting of deep CNNs, RNNs and attention layers and ensemble techniques. Since the PSSP problem is a sequence-to-sequence problem, where sequences consist of characters, Natural Language Processing models can be applied to the data and handle them as text sequences. In these terms, the PSSP task can be considered a Machine translation task from one language (consisting of 22 characters for protein residues) to another (consisting of 8 different characters that define the sequence of secondary structure). The state-of-the-art model in Machine Translation, Transformer, is applied in this work to the PSSP problem proving to achieve a decent accuracy of ~64.4% with basic parameter tuning and a vocabulary consisting of 1-grams as words. Further improvements in this architecture, including experiments with different vocabularies (n-grams extraction from sequences) or the use of pretrained embeddings from larger protein datasets, are promising for achieving a higher accuracy on this task and for unravelling the unique context of protein sequences’ structure. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Φωτάκης, Δημήτριος el
heal.committeeMemberName Σταφυλοπάτης, Γεώργιος-Ανδρέας el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 100 σ.
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα