dc.contributor.author | Κοσμά, Χρυσούλα | el |
dc.contributor.author | Kosma, Chrysoula | en |
dc.date.accessioned | 2020-05-26T14:49:06Z | |
dc.date.available | 2020-05-26T14:49:06Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/50664 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.18362 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Protein Secondary | en |
dc.subject | Δευτεροταγής Δομή Πρωτεϊνών | el |
dc.subject | Natural Language Processing | en |
dc.subject | Structure Transformer model | en |
dc.subject | Sequence to sequence prediction | en |
dc.subject | Deep Learning | en |
dc.subject | Πρωτεϊνική ακολουθία | el |
dc.subject | Μοντέλα Μηχανικής Μάθησης | el |
dc.subject | Μηχανική Μετάφραση | el |
dc.subject | Πρόβλεψη ακολουθιών | el |
dc.title | Πρόβλεψη της δευτεροταγούς δομής πρωτεϊνών με τεχνικές μηχανικής μάθησης | el |
heal.type | bachelorThesis | |
heal.classification | Μηχανική μάθηση | el |
heal.classification | Machine learning | en |
heal.language | el | |
heal.access | campus | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2019-11-12 | |
heal.abstract | Η βιοπληροφορική είναι το επιστημονικό πεδίο της ανάλυσης βιολογικών δεδομένων. Τα βιολογικά δεδομένα ποικίλλουν, από ακολουθίες DNA/RNA, οι οποίες μοντελοποιούνται ως ακολουθίες χαρακτήρων (αποτελούμενες από τέσσερις διαφορετικούς χαρακτήρες Α, G, C, T) στην περιγραφή της δομής πρωτεϊνών και τις ταξινομήσεις διαφορετικών οργανισμών. Μια κοινή προσέγγιση για την ανάλυση αυτών των δεδομένων είναι η εξαντλητική μοντελοποίηση ή η στατιστική ανάλυση τους. Η προσέγγιση της στατιστικής ανάλυσης είναι ένας αποτελεσματικός τρόπος σε αυτά τα προβλήματα, καθώς η πολυπλοκότητα των βιολογικών συστημάτων, που επηρεάζουν τα βιολογικά δεδομένα, είναι υψηλή και πρέπει να ληφθούν υπόψη όλες οι πιθανές αλληλεπιδράσεις μεταξύ των υποσυστημάτων τους. Σε αυτή την κατεύθυνση, τα τελευταία χρόνια, έχουν πραγματοποιηθεί αρκετές εργασίες που προσπαθούν να αναλύσουν βιολογικά δεδομένα με χρήση μηχανικής μάθησης, αποδεικνύοντας ότι τα υπάρχοντα πρότυπα βιολογικών ακολουθιών μπορούν να μοντελοποιηθούν αποτελεσματικά. Ανάμεσα στα πιο γνωστά προβλήματα βιολογικών ακολουθιών είναι το πρόβλημα της Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών, το οποίο στοχεύει στη απεικόνιση ακολουθιών πρωτεϊνών (αποτελούμενων από 22 διακριτούς χαρακτήρες) στις αντίστοιχες ακολουθίες της δευτεροταγούς δομής τους (η οποία συνήθως αποτελείται από 3 ή 8 κατηγορίες χαρακτήρων, που ορίζουν αντίστοιχα τις κωδικοποιήσεις Q3 και Q8). Σε αυτή την εργασία, το δύσκολο πρόβλημα της Q8 κωδικοποίησης της Δευτεροταγούς Δομής των Πρωτεϊνών εξετάζεται διεξοδικά. Οι πιο επιτυχημένες αρχιτεκτονικές που έχουν εφαρμοστεί στο πρόβλημα αυτό έχουν επιτύχει μια ακρίβεια ~71%, χρησιμοποιώντας μια ποικιλία μοντέλων, όπως βαθιά Συνελικτικά Νευρωνικά Δίκτυα, Επαναλαμβανόμενα Νευρωνικά Δίκτυα και μηχανισμούς Προσοχής, καθώς και συνδυασμούς των διαφόρων αρχιτεκτονικών. Δεδομένου ότι το πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών είναι ένα πρόβλημα πρόβλεψης ακολουθίας από ακολουθία, με τις ακολουθίες να αποτελούνται από χαρακτήρες, τα μοντέλα Επεξεργασίας Φυσικής Γλώσσας μπορούν να εφαρμοστούν στα δεδομένα και να τα χειριστούν ως ακολουθίες κειμένου. Σε αυτό το πλαίσιο, το πρόβλημα μπορεί να θεωρηθεί ως μια εργασία Μηχανικής Μετάφρασης από μια γλώσσα (αποτελούμενη από 22 χαρακτήρες για τα υπολείμματα των πρωτεϊνών) σε άλλη (αποτελούμενη από 8 διαφορετικούς χαρακτήρες που ορίζουν την ακολουθία της δευτεροταγούς δομής). Το μοντέλο με την μεγαλύτερη ακρίβεια στη Μηχανική Μετάφραση κειμένου είναι το μοντέλο του Μεταφραστή (Transformer), το οποίο και εφαρμόζεται σε αυτή την εργασία στο πρόβλημα Πρόβλεψης της Δευτεροταγούς Δομής των Πρωτεϊνών. Το μοντέλο αυτό επιτυγχάνει μια αξιοπρεπή ακρίβεια ~64.4% μετά από βασική ρύθμιση των υπερπαραμέτρων του και με τη χρήση ενός λεξιλογίου που αποτελείται από λέξεις ενός χαρακτήρα σε κάθε ακολουθία. Περαιτέρω βελτιώσεις σε αυτήν την αρχιτεκτονική, όπως πειράματα με διαφορετικά λεξιλόγια (με την εξαγωγή n-χαρακτήρων από τις ακολουθίες και τη χρήση τους ως λέξεις) ή χρήση προ-εκπαιδευμένων ενσωματώσεων από μεγαλύτερα σύνολα δεδομένων πρωτεϊνικών ακολουθιών, ενδεχομένως να επιτύχουν μεγαλύτερη ακρίβεια σε αυτό το πρόβλημα και να αναδείξουν το συνολικό μοτίβο της δομής των πρωτεϊνών. | el |
heal.abstract | Bioinformatics is the scientific field of analyzing biological data. Biological data vary from DNA/RNA sequences, which can be modelled as character sequences (consisting of four distinct characters A, G, C, T) to sequences describing the protein structure and the taxonomies of different organisms. A common approach to analyze these data is by extensive modelling or by statistical analysis. The approach of statistical analysis is an effective way in these problems since the complexity of the biological systems affecting biological data is high and all the possible interactions between subsystems should be examined. In this direction, in the last years, several works that analyze biological data using machine learning (ML) have been applied, demonstrating that the existing patterns of biological sequences can be effectively modelled. Among biological sequences’ most well-known problems, lies the Protein Secondary Structure Prediction problem (PSSP), which aims to map sequences of proteins (consisting of 22 distinct characters) to their corresponding sequences of secondary structure (which is usually modelled by 3 or 8 classes of characters, defining the Q3 and Q8 encodings respectively). In this work, the more challenging Q8 class problem is thoroughly examined. State-of-the-art architectures have achieved an accuracy of ~71%, using a variety of models, consisting of deep CNNs, RNNs and attention layers and ensemble techniques. Since the PSSP problem is a sequence-to-sequence problem, where sequences consist of characters, Natural Language Processing models can be applied to the data and handle them as text sequences. In these terms, the PSSP task can be considered a Machine translation task from one language (consisting of 22 characters for protein residues) to another (consisting of 8 different characters that define the sequence of secondary structure). The state-of-the-art model in Machine Translation, Transformer, is applied in this work to the PSSP problem proving to achieve a decent accuracy of ~64.4% with basic parameter tuning and a vocabulary consisting of 1-grams as words. Further improvements in this architecture, including experiments with different vocabularies (n-grams extraction from sequences) or the use of pretrained embeddings from larger protein datasets, are promising for achieving a higher accuracy on this task and for unravelling the unique context of protein sequences’ structure. | en |
heal.advisorName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Φωτάκης, Δημήτριος | el |
heal.committeeMemberName | Σταφυλοπάτης, Γεώργιος-Ανδρέας | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 100 σ. | |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: