Investigating the potentials of AI on segmenting tumors depicted on digital mammograms

Panagiotopoulos, Ioannis; Παναγιωτόπουλος, Ιωάννης

dc.contributor.author	Panagiotopoulos, Ioannis	en
dc.contributor.author	Παναγιωτόπουλος, Ιωάννης	el
dc.date.accessioned	2024-06-10T10:47:33Z
dc.date.available	2024-06-10T10:47:33Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/59690
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27386
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Τεχνητή Νοημοσύνη	el
dc.subject	Artificial Intelligence	en
dc.subject	Καρκίνος του Μαστού	el
dc.subject	Breast Cancer	en
dc.subject	Μαστογραφίες	el
dc.subject	Mammograms	en
dc.subject	Συνελικτικό Νευρωνικό Δίκτυο (U-net)	el
dc.subject	Convolutional Neural Network (U-net)	en
dc.title	Investigating the potentials of AI on segmenting tumors depicted on digital mammograms	en
dc.title	Μελέτη τεχνολογιών τεχνητής νοημοσύνης για την αποτελεσματική κατάτμηση όγκων σε ψηφιακές απεικονίσεις μαστογραφίας	el
heal.type	bachelorThesis
heal.classification	Γεωπληροφορική - Λογισμικό - Φωτογραμμετρία	el
heal.classification	Geoinformatics - Software -Photogrammetry	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-03-13
heal.abstract	Ο καρκίνος του μαστού αποτελεί σοβαρή απειλή για τις γυναίκες σε όλο τον κόσμο. Είναι ένας από τους πιο συχνά διαγνωσθέντες τύπους καρκίνου, με ποσοστό θνησιμότητας περίπου μία στις έξι γυναίκες, γεγονός που τον καθιστά μία από τις κύριες αιτίες θανάτου για τις γυναίκες παγκοσμίως. Μια πολύ αποτελεσματική ιατρική απεικονιστική τεχνική για την ανίχνευση του καρκίνου του μαστού, ιδιαίτερα σε πρώιμο στάδιο, στο οποίο είναι πιο θεραπεύσιμος, είναι η μαστογραφία. Η μαστογραφία είναι μια φθηνή και ασφαλής μέθοδος, που γίνεται από ακτινολόγους με τη χρήση ειδικών ακτινών, προκειμένου να οπτικοποιηθεί ο ιστός του μαστού. Χρησιμοποιείται για την υποστήριξη της έγκαιρης θεραπείας ασθενών με καρκίνο του μαστού και για την αύξηση του ποσοστού επιβίωσής τους, ενώ στοχεύει στην αποφυγή μιας ανεπιθύμητης επιθετικής λύσης, όπως η μαστεκτομή. Τις τελευταίες δύο δεκαετίες έχουν αναπτυχθεί διάφορα συστήματα ανίχνευσης με τη βοήθεια υπολογιστή για να βοηθήσουν τους ειδικούς ιατρούς να ανιχνεύσουν τις διάφορες ανωμαλίες του μαστού, όπως μάζες, ασβεστώσεις, αρχιτεκτονική παραμόρφωση του ιστού και ασυμμετρίες, στις μαστογραφίες. Σε αυτή την εργασία, προτείνεται ένα συνελικτικό νευρωνικό δίκτυο για την κατάτμηση του όγκου του μαστού σε ψηφιακές μαστογραφίες. Ο συγκεκριμένος τύπος συνελικτικού νευρωνικού δικτύου που χρησιμοποιείται είναι το U-net, με τις διαστάσεις της αρχικής εικόνας (εικόνα εισόδου) να είναι 256x256 pixel. Πιο αναλυτικά, το σύνολο δεδομένων INbreast, το οποίο αποτελείται από 410 μαστογραφίες και τις αντίστοιχες μάσκες τους, χρησιμοποιήθηκε για την εκπαίδευση και αξιολόγηση του μοντέλου, ενώ η μελέτη χωρίζεται σε δύο διακριτές προσεγγίσεις, στις οποίες πραγματοποιήθηκαν συνολικά οκτώ πειράματα, δηλαδή τέσσερα σε κάθε προσέγγιση. Πριν από τη διάκριση των δύο προσεγγίσεων, προηγείται η διαδικασία προεπεξεργασίας, η οποία περιλαμβάνει την περικοπή, την αλλαγή μεγέθους και την κανονικοποίηση των εικόνων. Όσον αφορά τις δύο προσεγγίσεις, η πρώτη αφορά το μοντέλο που εκπαιδεύεται με το «απλό» σύνολο δεδομένων INbreast, ενώ η δεύτερη εκπαιδεύεται με ένα επαυξημένο σύνολο δεδομένων, έξι φορές μεγαλύτερο από το αρχικό, το οποίο αντιστοιχεί σε συνολικά 2460 μαστογραφίες και τις αντίστοιχες μάσκες τους. Οι τεχνικές αύξησης εικόνων που επιλέχθηκαν περιλαμβάνουν την εξίσωση ιστογράμματος, τη διόρθωση γάμμα και την περιστροφή 180 μοιρών. Οι μετρήσεις αξιολόγησης που επιλέχθηκαν να χρησιμοποιηθούν για τον υπολογισμό της απόδοσης του μοντέλου είναι η βαθμολογία F1 και η τιμή απώλειας. Και στις δύο προσεγγίσεις, το σύνολο δεδομένων χωρίζεται σε τρία διαφορετικά σύνολα, το σύνολο εκπαίδευσης, το σύνολο επικύρωσης και το σύνολο δοκιμών, με 70%, 20%, 10%, αντίστοιχα. Επιπλέον, αναφέρεται πως ο βελτιστοποιητής που επιλέχθηκε για το μοντέλο είναι ο Adam. Όπως σημειώθηκε προηγουμένως, σε κάθε προσέγγιση έχουν γίνει τέσσερα πειράματα, τα οποία διαφέρουν ως προς το συνδυασμό του ρυθμού μάθησης και των εποχών. Πιο συγκεκριμένα, για κάθε προσέγγιση πραγματοποιήθηκαν δύο πειράματα 50 εποχών: ένα με μικρό ποσοστό μάθησης (lr = 0,001) και ένα με μεγάλο ποσοστό μάθησης (lr = 0,01) και δύο πειράματα 100 εποχών: ένα με μικρό ποσοστό μάθησης (lr = 0,001) και ένα με μεγάλο ποσοστό μάθησης (lr = 0,01). Όσον αφορά τα αποτελέσματα της μελέτης, σημειώνεται ότι η δεύτερη προσέγγιση αποδείχθηκε σημαντικά καλύτερη από την πρώτη. Στην πραγματικότητα, τα μη ικανοποιητικά αποτελέσματα της πρώτης προσέγγισης οδηγούν στην ιδέα της εφαρμογής των τεχνικών αύξησης δεδομένων και άρα, στη δεύτερη προσέγγιση. Πιο αναλυτικά, η καλύτερη επίδοση στην πρώτη προσέγγιση επιτεύχθηκε από το τέταρτο πείραμα, αυτό με τις 100 εποχές και το μεγάλο ποσοστό μάθησης, το οποίο είχε βαθμολογία F1 ίση με 0,64 για το σετ ελέγχου, ενώ τα υπόλοιπα πειράματα δεν κατάφεραν να «μάθουν» από τα δεδομένα, με αποτέλεσμα η βαθμολογία F1 και να είναι μικρότερη από 0,60 και να έχουν μεγαλύτερη τιμή σφάλματος. Μετά από βαθιά ανάλυση αυτών των αποτελεσμάτων, το συμπέρασμα ήταν ότι το μέγεθος δεδομένων δεν επαρκεί για την αποτελεσματική εκπαίδευση του μοντέλου, καθώς σε τρία από τα τέσσερα πειράματα το μοντέλο αντιμετώπισε υπερεκπαίδευση, ένα κλασικό πρόβλημα που συναντάται στα μικρά σύνολα δεδομένων. Έτσι, επιλέχθηκε να ελεγχθεί η απόδοση του μοντέλου σε ένα σύνολο δεδομένων μεγαλύτερου μεγέθους. Στη δεύτερη προσέγγιση, το πιο ακριβές πείραμα ήταν το τρίτο, δηλαδή αυτό με τις 100 εποχές και το μικρό ποσοστό μάθησης, το οποίο πέτυχε βαθμολογία F1 ίση με 0,81 στο σετ ελέγχου. Τα τρία υπόλοιπα πειράματα της δεύτερης προσέγγισης πέρασαν το 0,60 στη βαθμολογία F1 του σετ δοκιμών, κάτι το οποίο τα τρία πρώτα πειράματα της πρώτης προσέγγισης απέτυχαν να κάνουν. Η βαθμολογία F1 τους ήταν 0,71, 0,64 και 0,77 αντίστοιχα. Ως εκ τούτου, με βάση τα παραπάνω αποτελέσματα αποδεικνύεται ότι η επιλογή των μεθόδων αύξησης είναι επιτυχής και ότι το μοντέλο χρειάζεται πράγματι μεγαλύτερο αριθμό δεδομένων για να εκπαιδευτεί αποτελεσματικά. Επιπλέον, φαίνεται ότι η επιλογή του ρυθμού εκμάθησης εξαρτάται κυρίως από το σύνολο δεδομένων, αλλά και από τον καθορισμένο αριθμό εποχών για την εκπαίδευση του μοντέλου. Στην πρώτη προσέγγιση τα δύο ποσοστά μάθησης δεν ήταν συνεπή στις δύο διαφορετικές επιλογές των εποχών, αφού στα πειράματα των 50 εποχών το μικρό ποσοστό μάθησης ήταν πιο επιτυχημένο, ενώ στα πειράματα των 100 εποχών το μεγάλο ποσοστό μάθησης πέτυχε καλύτερα αποτελέσματα. Αντίθετα, στη δεύτερη προσέγγιση, τόσο στα πειράματα των 50 εποχών όσο και σε αυτά των 100, η καλύτερη απόδοση του μοντέλου επιτεύχθηκε με το μικρό ποσοστό μάθησης.	el
heal.abstract	Breast cancer is a serious threat to women worldwide. It is one of the most commonly diagnosed types of cancer, with a mortality rate of around one in six women, making it one of the leading causes of death for women globally. A very effective medical imaging technique for breast cancer detection, especially at an early stage, in which is more treatable, is mammography. Mammography is a cheap and safe method, performed by radiologists with the use of a dedicated X-ray, in order to visualize the breast tissue. It is used to support early treatment for breast cancer patients and to increase their survival rate, while aiming to avoid an unwanted aggressive solution, such as mastectomy. In the last two decades various Computer-aided-detection (CAD) systems have been developed to help medical experts detect breast abnormalities, including masses, calcifications, architectural distortion of the tissue, and asymmetries in mammograms. In this work, a Convolutional Neural Network (CNN) for breast tumor segmentation on digital mammograms is proposed. The specific type of CNN used is the UNET, with the starting (input) image dimension being 256x256 pixels. More analytically, the INbreast dataset, which consists of 410 mammograms and their corresponding masks, was utilized to train, and evaluate the model, while the study is divided into two distinct approaches, in which there were conducted eight experiments in total, meaning four in each approach. Former to the distinction of the two approaches, is preceded the preprocessing procedure, which contains the cropping, resizing, and normalization of the images. Concerning the two approaches, the first is about the model being trained with the “simple” INbreast dataset, while the second is trained with an augmented dataset, six times bigger than the initial one, resulting in a total of 2460 mammograms and their corresponding masks. The augmentation techniques selected include the histogram equalization, the gamma correction, and the 180-degree rotation of the images. The selected evaluation metrics that were used to calculate the performance of the model are the F1 score and the loss value. In both approaches, the dataset is split into three different sets, the training set, the validation set, and the testing set, with 70%, 20%, 10%, respectively. The optimizer selected for the fine-tuning of the model is the Adam. As previously noted, in each approach there have been done four experiments, which differ in the combination of learning rate and epochs. More specifically, for each approach there were conducted two 50-epoch experiments: one with a small learning rate (lr = 0.001) and one with a big learning rate (lr = 0.01), and two 100-epoch experiments: one with a small learning rate (lr = 0.001) and one with a big learning rate (lr = 0.01). Concerning the results of the study, it is noted that the second approach proved to be significantly better than the first. In fact, the unsatisfactory results of the first approach lead to the idea of implementing the data augmentation techniques and the second approach. More analytically, the best performance in the first approach was achieved by the fourth experiment, the one with the 100 epochs and the big learning rate, which achieved an F1 score of 0.64 for the testing set. The rest of the experiments didn’t manage to “learn” from the data, resulting in an F1 score in all three sets less than 0.60, and a bigger error value. After deep analysis of these results, the conclusion was that the dataset size is not enough to effectively train the model, since in three out of four experiments the model faced overfitting, a classic problem of small datasets. Thus, there was selected to check the performance of the model with a dataset of a bigger size. In the second approach, the more accurate example was the third, meaning the one with the 100 epochs and the small learning rate, which achieved an F1 score of 0.81 in the testing set. Moreover, the three rest experiments of the second approach passed the F1 score of 0.60 at the testing set that the three first experiments of the first approach failed to do. Their F1 score was 0.71, 0.64, and 0.77 respectively. Therefore, based on the above results it is proved that the selection of augmentation methods is successful and that the model indeed needs a larger number of data to train effectively. Additionally, it is shown that the selection of the learning rate depends primarily on the dataset, but also on the set number of epochs for model’s training. In the first approach two learning rates were not consistent on the two different options of epochs, since in 50-epoch experiments the small learning rate was more successful, but on the 100-epoch experiments the big learning rate achieved better results. On the contrary, in the second approach, in both 50 and 100 epochs experiments, the best performance of the model was achieved by the small learning rate.	en
heal.advisorName	Δουλάμης, Νικόλαος	el
heal.advisorName	Doulamis, Nikolaos	en
heal.committeeMemberName	Doulamis, Anastasios	en
heal.committeeMemberName	Δουλάμης, Αναστάσιος	el
heal.committeeMemberName	Βεσκούκης, Βασίλειος	el
heal.committeeMemberName	Vescoukis, Vasileios	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Αγρονόμων και Τοπογράφων Μηχανικών. Τομέας Τοπογραφίας. Εργαστήριο Φωτογραμμετρίας	el
heal.academicPublisherID	ntua
heal.numberOfPages	106 σ.	el
heal.fullTextAvailability	false