dc.contributor.author |
Μπούλιαρη, Ισμήνη
|
el |
dc.contributor.author |
Bouliari, Ismini
|
en |
dc.date.accessioned |
2017-05-19T12:16:43Z |
|
dc.date.available |
2017-05-19T12:16:43Z |
|
dc.date.issued |
2017-05-19 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/44900 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.14131 |
|
dc.rights |
Default License |
|
dc.subject |
Εκμάθηση πολλαπλοτήτων |
el |
dc.subject |
Αναγωγή δεδομένων μεγάλης κλίμακας |
el |
dc.subject |
Μικροσυστοιχίες |
el |
dc.subject |
Γονιδιακή έκφραση |
el |
dc.subject |
Γραμμικές |
el |
dc.subject |
Μη γραμμικές |
el |
dc.subject |
Machine learning |
en |
dc.subject |
Dimensionality reduction |
el |
dc.subject |
Microarrays |
en |
dc.subject |
PCA |
en |
dc.subject |
ISOMAP |
en |
dc.title |
Γραμμικές και μη γραμμικές μέθοδοι εκμάθησης πολλαπλοτήτων αναγωγής δεδομένων μεγάλης κλίμακας |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Μαθηματικές μέθοδοι |
el |
heal.classification |
Μοντέλα προγραμματισμού |
el |
heal.classification |
Μαθηματικά μοντέλα και μοντέλα προσομοίωσης |
el |
heal.classificationURI |
http://data.seab.gr/concepts/6ca5fa29c7950767cbdff3b3c2db129576fe533a |
|
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2017-03-07 |
|
heal.abstract |
Εφαρμογή μαθηματικών μεθόδων εκμάθησης πολλαπλοτήτων για την αναγωγή δεδομένων μεγάλης κλίμακας με εφαρμογές στην τεχνολογία μικροσυστοιχιών. Ο σκοπός της παρούσας διπλωματικής εργασίας είναι η παρουσίαση νέων και
αποτελεσματικών αλγορίθμων εκμάθησης πολλαπλοτήτων που βρίσκουν εφαρμογή στη Βιολογία, την Ιατρική και συναφείς επιστήμες και η ανάδειξη της χρησιμότητάς τους στο πεδίο της ανάλυσης μικροσυστοιχιών γονιδίων (mi-croarray analysis). Για την επίτευξη του σκοπού αυτού, αρχικά γίνεται μια σύντομη επισκόπηση του ορισμού της εκμάθησης πολλαπλοτήτων και παρουσίαση κάποιων από τους πιο αντιπροσωπευτικούς και ευρέως χρησιμοποιούμενους αλγορίθμους της, εμβαθύνοντας σε αποδείξεις- μαθηματικές και διαισθητικές. Στη συνέχεια, περιγράφουμε τον τρόπο χρήσης αυτών των αλγορίθμων στην
εξόρυξη δεδομένων, πρώτα παραθέτοντας ένα απλό παράδειγμα από τον χώρο των μαθηματικών και κάνοντας μία σύντομη σύγκριση της αποδοτικότητας μερικών από αυτούς. Στο δεύτερο μέρος επικεντρωνόμαστε στην τεχνολογία και την ανάλυση των μικροσυστοιχιών γονιδιακής έκφρασης. Δίνεται μία σύντομη
περιγραφή των βιολογικών διαδικασιών στις οποίες βασίζεται η τεχνολογία μικροσυστοιχιών. Οι πληροφορίες αυτές είναι απαραίτητες σε έναν αναγνώαστη, μη εξοικειωμένο με τον χώρο της Βιολογίας, ώστε να μπορεί να κατανοήσει σε μεγαλύτερο βαθμό τη συνέχεια της εργασίας. Επιπλέον, γίνεται- για λόγους
πληρότητας- μια λεπτομερής αναφορά τόσο στην τεχνολογία και στον τρόπο κατασκευής μιας μικροσυστοιχίας γονιδιακής έκφρασης (η οποία είναι πολύ εξειδικευμένη και μπορεί να παραληφθεί), όσο και στην μαθηματική επεξεργασία που πρέπει να εφαρμοστεί στα δεδομένα ώστε να είναι ικανά να παρέχουν κατά το δυνατόν ακριβέστερα αποτελέσματα, όταν τα αναλύσουμε με κάποιον αλγόριθμο αναγωγής μεγάλης κλίμακας. Επικεντρωνόμαστε στις μικροσυστοιχίες της Affymetrix, της οποίας χρησιμοποιούμε το πρωτόκολλο στο πειραματικό μέρος της εργασίας. Το τελευταίο κεφάλαιο βασίζεται στη δημοσίευση των
Dawson, Rodriguez και Malyj (Dawson et al. 2005). Με την αναπαραγωγή ενός μέρους των αποτελεσμάτων των τελευταίων, αποδεικνύεται πως ο αλγόριθμος Isomap-όπως αυτός εφαρμόζεται σε μία τέτοια μικροσυστοιχία- μπορεί να ανταποκριθεί άψογα στην πρόκληση της ανακάλυψης υποκείμενων δομών στα βιολογικά
δεδομένα. Με άλλα λόγια, γίνεται σαφές οτι ο Isomap αποτελεί έναν αποτελεσματικό αλγόριθμο αναγωγής δεδομένων μεγάλης κλίμακας, ο οποίος μπορεί 3 να αποδειχτεί ένα ισχυρό εργαλείο στην ανάλυση βιολογικών/ιατρικών δεδομένων. Παραθέτουμε, τέλος, παράρτημα που περιλαμβάνει κάποιες παραπάνω πληροφορίες για τους αλγόριθμους που αναφέρονται ακροθιγώς στην εργασία και τη σχετική βιβλιογραφία σε αλφαβητική σειρά. |
el |
heal.abstract |
The purpose of this study is to present new and effective manifold learning algorithms that can be applied in Biology, Medicine and related science fields and to highlight their utility in the field of microarray analysis. To achieve this goal, in the first part, we give the definition of the manifold and we present some of the most famous and frequently used linear (PCA, MDS) and non-linear (LLE, Isomap , Spectral Clustering , Diffusion Maps) dimensionality reduction methods. In order to gain insight to the core of dimensionality reduction methods, we also give both intuitive and mathematical proof for some of them. Furthermore, we compare their efficiency by applying them on the Swiss roll benchmark problem. In the second part, we focus on the technology and the analysis of gene expression microarrays. We use Affymetrix’ s GeneChip ® microarrays and shortly describe their construction method. We give little biological information, which is essential to
a reader unfamiliar with the field of Biology, in order to be able to deeply understand the rest of this study. We describe the entire process, from the manufacture of the chip until the export of the raw intensity values, which are to be analyzed. Moreover, we reproduce the results step by step of such an experiment with the Isomap algorithm, proving that it can perfectly respond to the challenge of finding interesting structures in big biological data
sets and provide important and essential information about the importance of those structures in different biological procedures. In this way, the Isomap algorithm is proved to be one of the most effective algorithms for the analysis of large data sets, such as gene expression microarrays. In the end of this paper, one can find the relevant bibliography. |
en |
heal.advisorName |
Σιέττος, Κωνσταντίνος |
el |
heal.committeeMemberName |
Κομίνης, Ιωάννης |
el |
heal.committeeMemberName |
Ματσόπουλος, Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μηχανικής |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
145 σ. |
|
heal.fullTextAvailability |
true |
|