Η παρούσα εργασία αποσκοπεί στο να συγκεντρώσει και να παρουσιάσει μεθόδους
Μηχανικής Μάθησης που βρίσκουν εφαρμογή στη Βιοπληροφορική, καθώς και
συγκεκριμένες εφαρμογές των τεχνικών αυτών. Οι τεχνικές που παρουσιάζονται ανήκουν
στο ευρύτερο επιστημονικό πεδίο της Τεχνητής Νοημοσύνης.
Η Τεχνητή Νοημοσύνη διαθέτει διάφορες διαδικασίες αυτοματοποίησης των
δραστηριοτήτων που συσχετίζονται με την ανθρώπινη σκέψη, όπως η λήψη αποφάσεων, η
επίλυση προβλημάτων, η μάθηση. Η Μηχανική Μάθηση εκφράζει την προσπάθεια
δημιουργίας συστημάτων που έχουν τη δυνατότητα να μαθαίνουν από την ήδη υπάρχουσα
γνώση, να συλλέγουν γνώση από το περιβάλλον τους και να αξιοποιούν τη γνώση αυτή για
τη λήψη αποφάσεων και την εξαγωγή συμπερασμάτων.
Η Μηχανική Μάθηση χρησιμοποιείται σε πολλές εφαρμογές Βιοπληροφορικής και
είναι ένα πολύτιμο εργαλείο στη διάθεση των ειδικών, για τη διαχείριση της
πολυπλοκότητας και του τεράστιου όγκου των δεδομένων που προκύπτουν σε διάφορες
εφαρμογές Ιατρικής, Βιοϊατρικής και Βιολογίας. Μέθοδοι Μηχανικής Μάθησης έχουν
χρησιμοποιηθεί για διάγνωση και πρόγνωση ασθενειών, για διαχείριση ασθενών, για την
υποστήριξη λήψης ιατρικών αποφάσεων, για επεξεργασία και ανάλυση βιοϊατρικών
σημάτων, για διαχείριση βιολογικών, κυτταρικών δεδομένων και για εξαγωγή μοντέλων και
συμπερασμάτων από τα δεδομένα αυτά.Η πολυπλοκότητα και το μέγεθος της πληροφορίας που είναι διαθέσιμη για
αξιοποίηση ολοένα και αυξάνει, επομένως είναι μεγαλύτερη η ανάγκη για αποδοτικότερη
χρήση των διαθέσιμών δεδομένων και για αυτόματη εξαγωγή συμπερασμάτων. Τα
δεδομένα που σχετίζονται με εφαρμογές Βιοπληροφορικής εξαρτώνται από πολλούς
παράγοντες και έχουν πολλές παραμέτρους – πολλές φορές ο άνθρωπος‐ειδικός αδυνατεί
να βρει κρυμμένα πρότυπα που υπάρχουν ή να εντοπίσει τις παραμέτρους στις οποίες θα
πρέπει να εστιάσει. Για το λόγο αυτό έχουν αναπτυχθεί κατάλληλες τεχνικές
προεπεξεργασίας δεδομένων, ώστε να απομακρυνθεί ο θόρυβος και η πληροφορία που
δεν είναι χρήσιμη. Με αυτόν τον τρόπο, επιλέγονται οι παράμετροι που θα οδηγήσουν
επιτυχώς στη δημιουργία του μοντέλου και στην εξαγωγή των συμπερασμάτων.Στις περισσότερες εφαρμογές προκύπτει το πρόβλημα της Ταξινόμησης, δηλαδή η
εύρεση των κατηγοριών/κλάσεων στις οποίες ανήκουν τα δεδομένα, με βάση τις τιμές σε
συγκεκριμένα χαρακτηριστικά τους. Η ταξινόμηση επιτυγχάνεται με τη βοήθεια κάποιου
μοντέλου το οποίο μπορεί να σχηματιστεί από μια διαδικασία εκμάθησης,
χρησιμοποιώντας δεδομένα για τα οποία οι κλάσεις είναι γνωστές εκ των προτέρων. Αφού
δημιουργηθεί το σύστημα ταξινόμησης, θα πρέπει στη συνέχεια να αξιολογηθεί η
ικανότητά του να προβλέπει σωστά τις κλάσεις για νέα δεδομένα του προβλήματος.Στην εργασία αυτή, αρχικά παρουσιάζονται απλές μέθοδοι ταξινόμησης, όπως η
Γραμμική Διαχωριστική Ανάλυση, οι Ταξινομητές Κοντινότερου Γείτονα και ο Απλοϊκός
Μπεϋζιανός Ταξινομητής. Έπειτα, σταδιακά γίνεται αναφορά σε περισσότερο σύνθετες
μεθόδους: Μπεϋζιανά Δίκτυα, Δέντρα Απόφασης, Νευρωνικά Δίκτυα και Μηχανές
Διανυσμάτων Υποστήριξης. Στη συνέχεια γίνεται μια περιγραφή των υβριδικών
συστημάτων ταξινόμησης που μπορεί να προκύψουν με συνδυασμό διάφορων μεθόδων
και παρουσιάζονται οι βασικότερες μέθοδοι σχεδίασης συλλογικών ταξινομητών. Για τα
Μπεϋζιανά Δίκτυα, τα Δέντρα Απόφασης, τα Νευρωνικά δίκτυα, τις Μηχανές Διανυσμάτων
Υποστήριξης, τα υβριδικά συστήματα και τους συλλογικούς ταξινομητές παρατίθεται μια
ανασκόπηση των εφαρμογών τους στη Βιοπληροφορική.
The purpose of this thesis is to collect, review and present Machine Learning
methods that are commonly applied in Bioinformatics and also to provide indicative
examples of such specific applications. The techniques presented emerge from the field of
Machine Learning, which is part of the broader scientific field of Artificial Intelligence.
Artificial Intelligence employs several procedures that automate activities of human
cognition and reasoning, such as decision making, problem solving and learning. Machine
Learning expresses the need to design systems that are able to learn from the available
knowledge, acquire knowledge from their environment and utilize that knowledge for
decision making and induction.
Machine Learning is used in numerous applications regarding Bioinformatics and
constitutes an invaluable tool at the experts’ disposal, for managing the complexity and the
vast amount of information gathered in various applications in Medicine, Biomedicine and
Biology. Methods of Machine Learning have been practiced to produce diagnosis and
prognosis of diseases, support medical decisions, process and analyze biomedical signals,
handle biological and cytological data and create models to induce conclusions.The complexity and the amount of information available for exploitation is
continuously increasing and as a result there is a demand for efficient use of data and
automatic conclusion induction. The data that refers to applications in Bioinformatics usually
is dependent on many conditions and includes a large number of parameters and features.
In most of the cases, human experts are unable to identify hidden patterns or pinpoint the
most important features of the data set. For this reason, there have been developed
techniques for data preprocessing, in order to remove noise from data as well as any
irrelevant information. In this way, only the parameters that will successfully lead to the
creation of the model and to the inference of conclusions are selected.
The classification problem arises in many applications, in which it is required to
arrange the data in specific categories/classes, based on the values of certain features.
Classification is achieved through a model, which is developed during a learning process
from data that their classes are already known. After the classification system has been
created, its ability to predict the classes of newly acquired data should be tested and
validated.
In this thesis, simple classification methods are initially presented, such as Linear
Discriminant Analysis, Closest Neighbor Classifiers and the Naïve Bayes Classifier. Following
those classifiers, more complex methods are described: Bayesian Networks, Decision Trees,
Neural Networks and Support Vector Machines. There is also a description of hybrid
classification systems that could be derived from combinations of the aforementionedtechniques and a presentation of designing Ensemble Classifiers. The applications of
Bayesian Networks, Decision Trees, Neural Networks, Support Vector Machines, hybrid
systems and Ensemble Classifiers in Bioinformatics are reviewed, after the presentation of
each technique.