Σκοπός της διπλωματικής εργασίας είναι η ανάπτυξη ολοκληρωμένης μεθοδολογίας για την παροχή χρήσιμων στατιστικών πληροφοριών σε μαστογραφικά δεδομένα, καθώς και η δημιουργία εργαλείων πρόβλεψης καλοήθους και κακοήθους όγκου στον μαστό βάσει των διαθέσιμων ιατρικών δεδομένων. Αρχικά, συλλέχθηκαν από το διαδίκτυο και εξετάστηκαν δύο βάσεις δεδομένων μαστογραφιών από πραγματικά ιατρικά στοιχεία . Στη συνέχεια, με τη βοήθεια του σχεδιασμού και της ανάλυσης απαιτήσεων αναπτύχθηκαν και υλοποιήθηκαν οι τελικές βάσεις δεδομένων στις οποίες αποθηκεύτηκαν τα δεδομένα προς περαιτέρω επεξεργασία. Παράλληλα με το σχεδιασμό κάθε βάσης, πραγματοποιούταν η προεργασία για το σχεδιασμό και την ανάλυση απαιτήσεων των τεχνικών εξόρυξης που θα χρησιμοποιηθούν σε επόμενο .
Στη συνέχεια πραγματοποιήθηκε βιβλιογραφική ανασκόπηση των όρων «εξόρυξη δεδομένων» και «καρκίνος του μαστού» καθώς και οι υπάρχουσες τεχνικές διάγνωσης του καρκίνου του μαστού μέχρι σήμερα. Στη συνέχεια επελέγησαν μετά από έρευνα οι δύο καταλληλότεροι αλγόριθμοι για την μελέτη και αξιοποίηση των δεδομένων των δύο βάσεων. Η μεθοδολογία που χρησιμοποιήθηκε είναι η εξόρυξη δεδομένων με την πλέον αποτελεσματική τεχνική: «δένδρα αποφάσεων» (decision trees), καθώς επίσης και με την τεχνική ομαδοποίησης (clustering). Η τροποποίηση των αλγορίθμων και ο πειραματισμός με τη μεθοδολογία των εν λόγω τεχνικών οδήγησε στη σύσταση και τον καθορισμό των παραμέτρων των δύο αλγορίθμων για την αποτελεσματικότερη και σωστότερη πρόβλεψη του είδους του όγκου. Τέλος, έγινε σύγκριση μεταξύ των δύο τεχνικών με τρεις διαφορετικές τεχνικές μέτρησης των αποτελεσμάτων με κύριο κριτήριο την πρόβλεψη του όγκου (καλοήθης ή κακοήθης).
The purpose of this thesis is to develop a methodology of useful statistical information on mammographic data as well as a technique for early diagnosis based on the records of benign and malignant breast tumor. Initially there were created two mammographic databases of true medical data available online. An analysis of the design and the requirements of the databases for data processing storage were initially developed. Furthermore, with the design for each data base, the groundwork for the design and analysis requirements of data mining techniques that would be required later on for the project were achieved.
Further study review was performed in order to define the terms “data mining” and “breast cancer” as well as the existing diagnostic techniques up to date. Then two algorithms were selected which were suitable for the study and use for the two databases. The methodology selected is the “data mining” with the most effective technic decision trees as well as the technic “clustering”. The modification of the algorithms and experiment on these techniques led to the recommendation but also to definition of the parameters of two algorithms for efficient and more accurate diagnosis of the type of tumor (benign or malignant). The two algorithmic techniques were compared with three different techniques for measuring their results, where the main criterion was their success in the diagnosis of the kind of tumor (benign or malignant).