Ανασκόπηση της εφαρμογής των μεθόδων μηχανικής μάθησης στη βιοπληροφορική

Τζεδάκης, Χαίδημος Ε.; Tzedakis, Charidimos E.

dc.contributor.advisor	Κουτσούρης, Δημήτρης	el
dc.contributor.author	Τζεδάκης, Χαίδημος Ε.	el
dc.contributor.author	Tzedakis, Charidimos E.	en
dc.date.accessioned	2014-05-06T11:15:50Z
dc.date.available	2014-05-06T11:15:50Z
dc.date.copyright	2014-01-15	-
dc.date.issued	2014-05-06
dc.date.submitted	2014-01-15	-
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/38441
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.7335
dc.description	242 σ.	el
dc.description.abstract	Η παρούσα εργασία αποσκοπεί στο να συγκεντρώσει και να παρουσιάσει μεθόδους Μηχανικής Μάθησης που βρίσκουν εφαρμογή στη Βιοπληροφορική, καθώς και συγκεκριμένες εφαρμογές των τεχνικών αυτών. Οι τεχνικές που παρουσιάζονται ανήκουν στο ευρύτερο επιστημονικό πεδίο της Τεχνητής Νοημοσύνης. Η Τεχνητή Νοημοσύνη διαθέτει διάφορες διαδικασίες αυτοματοποίησης των δραστηριοτήτων που συσχετίζονται με την ανθρώπινη σκέψη, όπως η λήψη αποφάσεων, η επίλυση προβλημάτων, η μάθηση. Η Μηχανική Μάθηση εκφράζει την προσπάθεια δημιουργίας συστημάτων που έχουν τη δυνατότητα να μαθαίνουν από την ήδη υπάρχουσα γνώση, να συλλέγουν γνώση από το περιβάλλον τους και να αξιοποιούν τη γνώση αυτή για τη λήψη αποφάσεων και την εξαγωγή συμπερασμάτων. Η Μηχανική Μάθηση χρησιμοποιείται σε πολλές εφαρμογές Βιοπληροφορικής και είναι ένα πολύτιμο εργαλείο στη διάθεση των ειδικών, για τη διαχείριση της πολυπλοκότητας και του τεράστιου όγκου των δεδομένων που προκύπτουν σε διάφορες εφαρμογές Ιατρικής, Βιοϊατρικής και Βιολογίας. Μέθοδοι Μηχανικής Μάθησης έχουν χρησιμοποιηθεί για διάγνωση και πρόγνωση ασθενειών, για διαχείριση ασθενών, για την υποστήριξη λήψης ιατρικών αποφάσεων, για επεξεργασία και ανάλυση βιοϊατρικών σημάτων, για διαχείριση βιολογικών, κυτταρικών δεδομένων και για εξαγωγή μοντέλων και συμπερασμάτων από τα δεδομένα αυτά.Η πολυπλοκότητα και το μέγεθος της πληροφορίας που είναι διαθέσιμη για αξιοποίηση ολοένα και αυξάνει, επομένως είναι μεγαλύτερη η ανάγκη για αποδοτικότερη χρήση των διαθέσιμών δεδομένων και για αυτόματη εξαγωγή συμπερασμάτων. Τα δεδομένα που σχετίζονται με εφαρμογές Βιοπληροφορικής εξαρτώνται από πολλούς παράγοντες και έχουν πολλές παραμέτρους – πολλές φορές ο άνθρωπος‐ειδικός αδυνατεί να βρει κρυμμένα πρότυπα που υπάρχουν ή να εντοπίσει τις παραμέτρους στις οποίες θα πρέπει να εστιάσει. Για το λόγο αυτό έχουν αναπτυχθεί κατάλληλες τεχνικές προεπεξεργασίας δεδομένων, ώστε να απομακρυνθεί ο θόρυβος και η πληροφορία που δεν είναι χρήσιμη. Με αυτόν τον τρόπο, επιλέγονται οι παράμετροι που θα οδηγήσουν επιτυχώς στη δημιουργία του μοντέλου και στην εξαγωγή των συμπερασμάτων.Στις περισσότερες εφαρμογές προκύπτει το πρόβλημα της Ταξινόμησης, δηλαδή η εύρεση των κατηγοριών/κλάσεων στις οποίες ανήκουν τα δεδομένα, με βάση τις τιμές σε συγκεκριμένα χαρακτηριστικά τους. Η ταξινόμηση επιτυγχάνεται με τη βοήθεια κάποιου μοντέλου το οποίο μπορεί να σχηματιστεί από μια διαδικασία εκμάθησης, χρησιμοποιώντας δεδομένα για τα οποία οι κλάσεις είναι γνωστές εκ των προτέρων. Αφού δημιουργηθεί το σύστημα ταξινόμησης, θα πρέπει στη συνέχεια να αξιολογηθεί η ικανότητά του να προβλέπει σωστά τις κλάσεις για νέα δεδομένα του προβλήματος.Στην εργασία αυτή, αρχικά παρουσιάζονται απλές μέθοδοι ταξινόμησης, όπως η Γραμμική Διαχωριστική Ανάλυση, οι Ταξινομητές Κοντινότερου Γείτονα και ο Απλοϊκός Μπεϋζιανός Ταξινομητής. Έπειτα, σταδιακά γίνεται αναφορά σε περισσότερο σύνθετες μεθόδους: Μπεϋζιανά Δίκτυα, Δέντρα Απόφασης, Νευρωνικά Δίκτυα και Μηχανές Διανυσμάτων Υποστήριξης. Στη συνέχεια γίνεται μια περιγραφή των υβριδικών συστημάτων ταξινόμησης που μπορεί να προκύψουν με συνδυασμό διάφορων μεθόδων και παρουσιάζονται οι βασικότερες μέθοδοι σχεδίασης συλλογικών ταξινομητών. Για τα Μπεϋζιανά Δίκτυα, τα Δέντρα Απόφασης, τα Νευρωνικά δίκτυα, τις Μηχανές Διανυσμάτων Υποστήριξης, τα υβριδικά συστήματα και τους συλλογικούς ταξινομητές παρατίθεται μια ανασκόπηση των εφαρμογών τους στη Βιοπληροφορική.	el
dc.description.abstract	The purpose of this thesis is to collect, review and present Machine Learning methods that are commonly applied in Bioinformatics and also to provide indicative examples of such specific applications. The techniques presented emerge from the field of Machine Learning, which is part of the broader scientific field of Artificial Intelligence. Artificial Intelligence employs several procedures that automate activities of human cognition and reasoning, such as decision making, problem solving and learning. Machine Learning expresses the need to design systems that are able to learn from the available knowledge, acquire knowledge from their environment and utilize that knowledge for decision making and induction. Machine Learning is used in numerous applications regarding Bioinformatics and constitutes an invaluable tool at the experts’ disposal, for managing the complexity and the vast amount of information gathered in various applications in Medicine, Biomedicine and Biology. Methods of Machine Learning have been practiced to produce diagnosis and prognosis of diseases, support medical decisions, process and analyze biomedical signals, handle biological and cytological data and create models to induce conclusions.The complexity and the amount of information available for exploitation is continuously increasing and as a result there is a demand for efficient use of data and automatic conclusion induction. The data that refers to applications in Bioinformatics usually is dependent on many conditions and includes a large number of parameters and features. In most of the cases, human experts are unable to identify hidden patterns or pinpoint the most important features of the data set. For this reason, there have been developed techniques for data preprocessing, in order to remove noise from data as well as any irrelevant information. In this way, only the parameters that will successfully lead to the creation of the model and to the inference of conclusions are selected. The classification problem arises in many applications, in which it is required to arrange the data in specific categories/classes, based on the values of certain features. Classification is achieved through a model, which is developed during a learning process from data that their classes are already known. After the classification system has been created, its ability to predict the classes of newly acquired data should be tested and validated. In this thesis, simple classification methods are initially presented, such as Linear Discriminant Analysis, Closest Neighbor Classifiers and the Naïve Bayes Classifier. Following those classifiers, more complex methods are described: Bayesian Networks, Decision Trees, Neural Networks and Support Vector Machines. There is also a description of hybrid classification systems that could be derived from combinations of the aforementionedtechniques and a presentation of designing Ensemble Classifiers. The applications of Bayesian Networks, Decision Trees, Neural Networks, Support Vector Machines, hybrid systems and Ensemble Classifiers in Bioinformatics are reviewed, after the presentation of each technique.	en
dc.description.statementofresponsibility	Χαίδημος Ε. Τζεδάκης	el
dc.language.iso	el	en
dc.rights	ETDRestricted-policy.xml	en
dc.subject	Μηχανική Μάθηση	el
dc.subject	Επιλογή Χαρακτηριστικών	el
dc.subject	Ταξινόμηση	el
dc.subject	Μπεϋζιανά Δίκτυα	el
dc.subject	Δέντρα Απόφασης	el
dc.subject	Νευρωνικά Δίκτυα	el
dc.subject	Συλλογική Μάθηση	el
dc.subject	Γενετικοί Αλγόριθμοι	el
dc.subject	Machine Learning	en
dc.subject	Feature Selection	en
dc.subject	Classification	en
dc.subject	Bayesian Networks	en
dc.subject	Decision Trees	en
dc.subject	Neural Networks	en
dc.subject	Ensemble Learning	en
dc.subject	Genetic Algorithms	en
dc.title	Ανασκόπηση της εφαρμογής των μεθόδων μηχανικής μάθησης στη βιοπληροφορική	el
dc.title.alternative	Review of machine learning methods in bioinformatics	el
dc.type	bachelorThesis	el (en)
dc.date.accepted	2014-01-14	-
dc.date.modified	2014-01-15	-
dc.contributor.advisorcommitteemember	Ματσόπουλος, Γεώργιος	el
dc.contributor.advisorcommitteemember	Πρέντζα Αγγελική	el
dc.contributor.committeemember	Κουτσούρης, Δημήτρης	el
dc.contributor.committeemember	Ματσόπουλος, Γεώργιος	el
dc.contributor.committeemember	Πρέντζα Αγγελική	el
dc.contributor.department	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας & Τεχνολογίας Υλικών	el
dc.date.recordmanipulation.recordcreated	2014-05-06	-
dc.date.recordmanipulation.recordmodified	2014-05-06	-