Μετα-ανάλυση με μηχανές διανυσμάτων υποστήριξης σε γονιδιακά δεδομένα

Μιχαλοπούλου, Ελευθερία; Michalopoulou, Eleftheria

dc.contributor.author	Μιχαλοπούλου, Ελευθερία	el
dc.contributor.author	Michalopoulou, Eleftheria	en
dc.date.accessioned	2016-09-08T12:26:21Z
dc.date.available	2016-09-08T12:26:21Z
dc.date.issued	2016-09-08
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/43439
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.12506
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Μετα-ανάλυση	el
dc.subject	Ταξινόμηση	el
dc.subject	Μέθοδοι αξιολόγησης	el
dc.subject	Μηχανές διανυσμάτων υποστήριξης	el
dc.subject	Γονιδιακά δεδομένα	el
dc.subject	Classification	el
dc.subject	Evaluation methods	el
dc.subject	Meta-analysis	el
dc.subject	Support vector machines	el
dc.subject	Gene expression data	el
dc.title	Μετα-ανάλυση με μηχανές διανυσμάτων υποστήριξης σε γονιδιακά δεδομένα	el
dc.title	Meta-analysis with support vector machines in gene expression data	en
heal.type	bachelorThesis
heal.generalDescription	Εισαγωγή στην μέθοδο της μετα-ανάλυσης και στις SVM και συνδυασμός αυτών σε γονιδιακά δεδομένα.	el
heal.classification	Στατιστική	el
heal.classificationURI	http://data.seab.gr/concepts/21f5bcc665080b1745e60f222330e7556266bb8d
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2016-07-11
heal.abstract	Εξαιτίας της αυξανόμενης διαθεσιμότητας μελετών και δεδομένων, και ειδικά των συνόλων με microarray δεδομένα, των οποίων η ανάλυση έχει μετατραπεί τα τελευταία χρόνια σε μια περιοχή έντονης έρευνας (Vardhanabhuti et al., 2006), εμφανίζεται μεγάλη η ανάγκη για ολοκληρωμένες υπολογιστικές μεθόδους, οι οποίες θα αξιολογούν τα πολλαπλά και ανεξάρτητα αυτά σύνολα δεδομένων και θα διεξάγουν συμπεράσματα με βάση αυτά (Fishel et al., 2007). Η συμβολή της μετα–ανάλυσης και των μεθόδων μηχανικής μάθησης εμφανίζεται σε αυτό το ζήτημα αρκετά μεγάλη. Συγκεκριμένα, η τεχνική της μετα–ανάλυσης βοηθά στο να αντιμετωπιστούν θέματα, όπως το μικρό μέγεθος δείγματος και η ύπαρξη μεροληψίας, παράγοντας πιο έγκυρα και ενημερωτικά αποτελέσματα (Fishel et al., 2007). Επίσης, οι μέθοδοι μηχανικής μάθησης αποτελούν ισχυρό εργαλείο για την ανάλυση των προφίλ των γονιδιακών εκφράσεων, με σκοπό την πρόγνωση, τη διάγνωση και την αντιμετώπιση του καρκίνου (Fishel et al., 2007). Έτσι, στην παρούσα διπλωματική εργασία, στο κεφάλαιο 1 αρχικά, κάνουμε μια εισαγωγή στην μετα–ανάλυση. Θα δούμε τι είναι η μετα–ανάλυση, ποιος την όρισε για πρώτη φορά και ποια είναι τα βασικά βήματα για την πραγματοποίηση της. Θα αναφερθούμε λεπτομερώς στα μοντέλα που χρησιμοποιούν κυρίως οι ερευνητές όταν διεξάγουν μια μετα–ανάλυση, καθώς και το πώς οι ίδιοι μετρούν και αντιμετωπίζουν την ετερογένεια (heterogeneity) μεταξύ των διαφόρων μελετών. Στο κεφάλαιο 2, ορίζουμε το τι είναι ταξινόμηση και αναφέρουμε κάποιες βασικές μεθόδους της, όπως τα δέντρα απόφασης, τα τεχνητά νευρωνικά δίκτυα, την λογιστική παλινδρόμηση, τα Μπεϋζιανά μοντέλα δικτύου και τις μηχανές διανυσμάτων υποστήριξης. Θα δούμε συνοπτικά πως αυτές λειτουργούν και ποια είναι τα πλεονεκτήματα τους. Το τρίτο κεφάλαιο είναι αφιερωμένο στις μηχανές διανυσμάτων υποστήριξης και στον αλγόριθμο SVM – RFE. Αρχικά, αναφερόμαστε αναλυτικά στο πως γίνεται η δυαδική ταξινόμηση και η παλινδρόμηση με χρήση των SVM. Στη συνέχεια, γίνεται μια εισαγωγή στην επιλογή χαρακτηριστικών (feature selection), καθώς ο αλγόριθμος SVM – RFE αποτελεί μέθοδο για feature selection. Έπειτα, περιγράφουμε την λειτουργία του αλγορίθμου και παρέχουμε μια εφαρμογή του σε δεδομένα που αποκομίσαμε από την UCI machine learning repository. Στο κεφάλαιο 4 παραθέτουμε μεθόδους αξιολόγησης για την ταξινόμηση, αλλά και αναλύσεις, οι οποίες όταν εμπεριέχονται σε μια μετα–ανάλυση την κάνουν πιο αξιόπιστη και βοηθούν τους ερευνητές να αξιολογήσουν το τελικό της συμπέρασμα. Στο πέμπτο και τελευταίο κεφάλαιο εισάγεται μια νέα μέθοδος, η οποία προτάθηκε από τον Fishel et al. (2007) και αποτελεί μια predictor – based μετα–ανάλυση microarray δεδομένων, όπου ο predictor είναι ένας SVM ταξινομητής για τον διαχωρισμό των πνευμονικών ιστών σε καρκινικούς και φυσιολογικούς. Αρχικά, παραθέτονται κάποιες βασικές έννοιες σχετικά με το τι είναι τα DNA microarrays, οι γονιδιακές εκφράσεις κ.α., και στη συνέχεια παραθέτεται το πρόβλημα της χαμηλής overlap, το οποίο και στοχεύει να αντιμετωπίσει η μέθοδος που εισάγεται στη μελέτη του Fishel et al. (2007). Τέλος, περιγράφουμε αναλυτικά την μέθοδο και παρουσιάζουμε τα αποτελέσματα της.	el
heal.abstract	Due to the increasing availability of studies and data sets, specific of microarray data sets whose analysis has become the last years an area of intense research (Vardhanabhuti et al., 2006), appears a growing need for integrative computational methods that evaluate those multiple and independent data sets and based on them conduct conclusions (Fishel et al., 2007). The contribution of meta–analysis and machine learning methods is large in this matter. Particularly the meta–analysis technique helps the investigators to deal with problems, such as the small sample size and the existence of biases, for the production of more reliable and informative results (Fishel et al., 2007). Also the machine learning methods have proven to be o powerful tool for the analysis of gene expression profiling in order to predict, detect and cure cancer. So, in this thesis, we represent in chapter 1 an introduction to meta–analysis. We study what is a meta–analysis, who defined her and which are the basic steps for her construction. We refer in detail to the models, that the investigators mostly use when they conduct a meta–analysis and also how they compute and deal with heterogeneity between the studies. In chapter 2 we give a definition of classification and we describe some classification methods, such as the Decision trees, the Artificial Neural Networks, the Logistic Regression, the Bayesian network models and the Support Vector Machines (SVM). We discuss in summary about their function and their advantages. The third chapter is dedicated to Support Vector Machines (SVM) and SVM –RFE algorithm. At first, we refer analytically to how binary classification and regression are made using SVM. Then, we make an introduction to feature selection, due to the fact that the SVM – RFE is a method for feature selection. Afterwards, we describe the function of SVM – RFE and we present an application of this method using data from the UCI machine learning repository. In chapter 4 we present evaluation methods for classification and specific analysis, those give reliability to meta–analysis and help the investigators evaluate her final conclusion. In fifth and final chapter we introduce a new method suggested by Fishel et al. (2007), which consists a predictor – based meta–analysis of microarray data sets, where the predictor is a SVM classifier for the separation of tumor and normal lung tissues. At first we offer some basic definitions (what is a DNA microarray, a gene expression etc) and then we describe the problem of low overlap, that Fishel’s et al. (2007) method is trying to solve. At the end we describe the new method and her results.	en
heal.advisorName	Κουκουβίνος, Χρήστος	el
heal.committeeMemberName	Καρώνη-Ρίτσαρντσον, Χρυσηίς	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών	el
heal.academicPublisherID	ntua
heal.numberOfPages	131 σ.
heal.fullTextAvailability	true