Ο σκοπός της παρούσας εργασίας είναι η μελέτη και η αξιολόγηση της εφαρμογής διαφόρων μεθόδων κατηγοριοποίησης σε ιατρικά δεδομένα προκειμένου να εξεταστεί κατά πόσο είναι δυνατόν δοθέντος ενός συνόλου δεδομένων να γίνει ασφαλής διάγνωση κάποιας ασθένειας με αυτόματο τρόπο. Για το σκοπό αυτό αντλήθηκαν από την βάση δεδομένων UCI δεδομένα από διάφορες διαγνωστικές ιατρικές εξετάσεις τα οποία φέρουν τον χαρακτηρισμό του ατόμου ως υγιές ή ασθενές, ο οποίος χρησιμοποιήθηκε για την αξιολόγηση των διαφόρων μεθόδων που χρησιμοποιήθηκαν.
Συγκεκριμένα, χρησιμοποιήθηκαν οι αλγόριθμοι επιβλεπόμενης αλλά και μη επιβλεπόμενης μάθησης. Στην κατηγορία της επιβλεπόμενης μάθησης χρησιμοποιήθηκαν τα Τεχνητά Νευρωνικά Δίκτυα (ΑΝΝ), η Μηχανή Διανυσμάτων Υποστήριξης (SVM) και ο αλγόριθμος k Κοντινότερων Γειτόνων (kNN) ενώ στην κατηγορία της μη επιβλεπόμενης μάθησης χρησιμοποιήθηκαν οι Χάρτες Αυτο-Οργάνωσης (SOM) και ο Ασαφής c-Μέσος (FCM). Επιπλέον για την βελτίωση της απόδοσης των παραπάνω μεθόδων χρησιμοποιήθηκε και η μέθοδος επιλογής χαρακτηριστικών Σειριακής Εμπρόσθιας Μεταβλητής Επιλογής (SFFS) προκειμένου να αφαιρεθούν πλεονάζοντα χαρακτηριστικά των δεδομένων.
Η αξιολόγηση των αποτελεσμάτων έγινε με τη χρήση των στατιστικών μέτρων ακρίβεια (accuracy), ευαισθησία (sensitivity) και προσδιοριστικότητα (specificity) και της χαρακτηριστικής καμπύλης λειτουργίας (ROC).
The scope of this thesis was the analysis and the evaluation of classification methods when applied on medical data in order to determine whether it is possible to diagnose a disease using machine learning. Therefore, a collection of data sets of diagnostic examinations was chosen from the UCI repository. The data sets contain the labels of the instances which are used to evaluate the performance the classifiers.
The assessed techniques were both supervised learning and unsupervised learning algorithms. As far as the supervised case is concerned, the employed methods were Artificial Neural Networks (ΑΝΝ), Support Vector Machine (SVM) and k Nearest Neighbours (kNN) while for the unsupervised case there was made use of Self Organising Maps (SOM) and Fuzzy c-Means (FCM). Furthermore, in an attempt to optimise the classifier performance the Sequential Forward Floating Selection technique was applied so as to reduce the dimensionality of the data and remove redundant features.
The evaluation of the classification results was performed using the statistical measures accuracy, sensitivity and specificity while the Receiver Operating Characteristic (ROC) curve was also plotted.