Η εργασία είχε σαν σκοπό τη χρήση γνωστών βιοπληροφορικών εργαλείων και βάσεων δεδομένων για την ανάλυση πρωτεϊνικών αλληλουχιών και τη μελέτη της αποτελεσματικότητας τεχνικών μηχανικής μάθησης (machine learning) στο διαχωρισμό πρωτεϊνών συγκεκριμένων κατηγοριών. Οι αλγόριθμοι αναπτύχθηκαν σε περιβάλλον Linux, χρησιμοποιήθηκε η γλώσσα προγραμματισμού Perl (modules όπως BioPerl, DBI) και εντολές της MySQL. Το τεχνικό μέρος της εργασίας αποτελείται από δυο ενότητες.
Στην πρώτη ενότητα αναπτύχθηκε ένας αλγόριθμος πρόβλεψης πρωτεϊνικής λειτουργίας άγνωστων αλληλουχιών. Χρησιμοποιήθηκαν το βιοπληροφορικό εργαλείο BLAST και η βάση δεδομένων UniProt-GOA. Ο χαρακτηρισμός κάθε άγνωστης πρωτεΐνης με λειτουργία, έγινε με τη χρήση του λεξιλογίου της Οντολογίας Γονιδίων (Gene Ontology) και της Ενζυμικής Ονοματολογίας (Enzyme Nomeclature). Ο αλγόριθμος χρησιμοποιήθηκε για την ανάλυση πραγματικών αλληλουχιών από δείγμα μεταγονιδιωματικής ανάλυσης.
Στη δεύτερη ενότητα μελετήθηκε η αποτελεσματικότητα πέντε αλγόριθμων μηχανικής μάθησης στο διαχωρισμό υποκατηγοριών των υδρολασών από μη υδρολάσες, με βάση συγκεκριμένα χαρακτηριστικά (λειτουργικά, φυσικοχημικά). Συγκεκριμένα χρησιμοποιήθηκαν οι αλγόριθμοι Naive Bayes Kernel, Decision Trees, Support Vector Machines, Perceptron και k-Nearest-Neighbor. Στη συνέχεια οι αλγόριθμοι με τις μεγαλύτερες αποδόσεις και την καλύτερη συμπεριφορά χρησιμοποιήθηκαν για το διαχωρισμό θερμοανθεκτικών από μη θερμοανθεκτικά ένζυμα. Οι αλγόριθμοι Naive Bayes Kernel και Decision Trees κατάφεραν να διαχωρίσουν ένζυμα ίδιας λειτουργίας αλλά διαφορετικής αντοχής στη θερμοκρασία με απόδοση 80%-85%.
The purpose of this thesis was firstly, the function prediction of unkown protein sequences with the use of well-known bioinformatic tools and secondly, the observation of machine learning algorithms in the classification of enzyme categories. All the algorithms were developed in Linux enviroment, with Perl programming language (modules such as BioPerl, DBI) and MySQL commands.
In the first part, an algorithm which include the bioinformatic tool BLAST, the non-iea UniProt-GOA database was developed. This algorithm is able to predict the function of unknown protein sequences with the use of Gene Ontology vocabulary and Enzyme Nomeclature system. Thus it was executed for the prediction of sequences in a sample of metagenomic analysis.
In the second part, the aim was the observation of accuracy and performance of five machine learning algorithms, Naïve Bayes Kernel, Decicion Trees, Support Vector Machines, Perceptron and k-Nearest-Neighbor. All these algorithms run with the view to classify different enzyme categories, based on functional and physicochemical properties. After this task, the best algorithms were used to separate thermostable from non-thermostable enzymes. Naïve Bayes Kernel and Decision Trees are able to separate enzymes which realize the same function but they have different levels of thermostability with an approximate accuracy of 80-85%.