H διπλωματική αυτή εργασία εστίασε στην επιστημονική περιοχή της Εξόρυξης Δεδομένων, με ενδελεχή μελέτη των διαθέσιμων αλγορίθμων, ανάπτυξη αλγόριθμου επιλογής μεταβλητών και εφαρμογές σε προβλήματα Μεταβολομικής. Συγκεκριμένα, μια σειρά μεθόδων μηχανικής μάθησης εφαρμόστηκαν σε δύο αρκετά διαφορετικά σύνολα δεδομένων, με στόχο την ταξινόμηση αγνώστων δειγμάτων σε προκαθορισμένες κλάσεις. Το πρώτο προέρχεται από δημοσιευμένη εργασία σχετικά με την πρόβλεψη της μετεγχειρητικής οξείας νεφρικής βλάβης (AKI). Περιέχει 106 φάσματα NMR από ανθρώπινα ούρα, με 701 χαρακτηριστικά και 2 κλάσεις. Εξετάστηκαν αρχικά αλγόριθμοι ταξινόμησης στο λογισμικό εξόρυξης δεδομένων WEKA και έπειτα εξήχθησαν συναινετικά μοντέλα με βάση τα αποτελέσματα από τα προηγούμενα μοντέλα, δημιουργώντας κατάλληλο λογιστικό φύλλο. Το δεύτερο σύνολο δεδομένων παραχωρήθηκε από το Τμήμα Φαρμακευτικής του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών, και αφορά την επίδραση της ολευρωπαΐνης στην χρόνια καρδιακή ανεπάρκεια που προκαλεί η χορήγηση αδριαμυκίνης. Περιέχει 40 φάσματα NMR από εκχυλίσματα ιστών επιμύων, με 38 χαρακτηριστικά και 6 κλάσεις. Αρχικά χρησιμοποιήθηκε το εξειδικευμένο λογισμικό μεταβολομικής ανάλυσης MetaboAnalyst για τη διερεύνηση της ικανότητας διαχωρισμού των δεδομένων με συμβατικές μεθόδους. Στη συνέχεια, εξετάστηκαν αλγόριθμοι ταξινόμησης στη WEKA καθώς και συναινετικά μοντέλα που προέκυψαν χρησιμοποιώντας τα διαθέσιμα σε αυτήν εργαλεία. Τέλος, αναπτύχθηκε ένας αλγόριθμος επιλογής μεταβλητών με γενετική έρευνα και εκπαίδευση μοντέλων με μια υλοποίηση μηχανών διανυσμάτων υποστήριξης (Support Vector Machines, SVM). Τα αποτελέσματα της διπλωματικής εργασίας, έδειξαν ότι οι μέθοδοι μηχανικής μάθησης μπορούν να δώσουν λύσεις σε προβλήματα ανάλυσης δεδομένων Μεταβολομικής, με την ανάπτυξη μοντέλων μεγαλύτερης ακρίβειας σε σχέση με αυτά που παράγονται από συμβατικές στατιστικές μεθόδους.
This diploma thesis focused on the scientific area of Data Mining, with in-depth study of the available algorithms, on the development of a variable selection algorithm and on applications to Metabolomics. Namely, a series of machine learning methods was applied to two very different datasets, in order to classify unknown samples to pre-set classes. The first one comes from a published work about predicting Acute Kidney Injury (AKI). It contains 106 human urine NMR spectra, with 701 attributes and 2 classes. At first, classification algorithms of the data mining software WEKA were used. Then, consensus models were built using the results of the previous models, creating a suitable spreadsheet. The second dataset was given from the faculty of Pharmacy of the University of Athens and concerns the effect of the Oleuropein to chronic doxorubicin-induced cardiomyopathy. It contains 40 NMR spectra of rat tissue extracts, with 38 attributes and 6 classes. At first, the Metabolomics-specific software MetaboAnalyst was used to investigate the ability to separate the data with conventional methods. Then, WEKA classification algorithms were examined, as well as consensus modelling using its tools. Finally, a variable selection algorithm was developed using genetic search and a support vector machines (SVM) implementation. The results of this diploma thesis showed that the machine learning methods can provide solutions to Metabolomics data analysis problems, by building models of higher accuracy than those built from conventional statistical methods.