Ταξινόμηση δεδομένων καρκίνου του μαστού με χρήση στατιστικών μεθόδων και μεθόδων μηχανικής μάθησης

Γιαννακουδάκη, Χριστίνα; Giannakoudaki, Christina

dc.contributor.author	Γιαννακουδάκη, Χριστίνα
dc.contributor.author	Giannakoudaki, Christina	en
dc.date.accessioned	2023-10-02T10:21:00Z
dc.date.available	2023-10-02T10:21:00Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58116
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25813
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Default License
dc.subject	Ταξινόμηση	el
dc.subject	Μηχανική Μάθηση	el
dc.subject	Καρκίνος του μαστού	el
dc.subject	Νευρωνικά δίκτυα	el
dc.subject	Classification	el
dc.subject	Machine learning	el
dc.subject	Breast cancer	el
dc.subject	Neural networks	el
dc.title	Ταξινόμηση δεδομένων καρκίνου του μαστού με χρήση στατιστικών μεθόδων και μεθόδων μηχανικής μάθησης	el
heal.type	masterThesis
heal.classification	Μηχανική Μάθηση	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-06-27
heal.abstract	Μια από τις πιο κοινές και θανατηφόρες ασθένειες είναι ο καρκίνος που πλήττει εκατομμύρια άτομα παγκοσμίως. Η ανίχνευση και η θεραπεία του καρκίνου έχουν προχωρήσει σημαντικά χάρη στην ιατρική έρευνα, αλλά το θέμα εξακολουθεί να είναι περίπλοκο και δύσκολο και απαιτεί συνεχείς βελτιώσεις στη μεθοδολογία και την τεχνολογία. Οι αλγόριθμοι μηχανικής μάθησης έχουν πρόσφατα επιδείξει σημαντικές δυνατότητες στον τομέα της ιατρικής έρευνας, ιδίως στην ανάλυση τεράστιου όγκου δεδομένων για τη διάγνωση κακοήθων όγκων. Ωστόσο, η ποιότητα και η ισορροπία των δεδομένων εκπαίδευσης έχουν σημαντικό αντίκτυπο στο πόσο καλά αποδίδουν αυτοί οι αλγόριθμοι. Οι αλγόριθμοι μηχανικής μάθησης μπορεί να αποδίδουν ανεπαρκώς σε μη ισορροπημένα σύνολα δεδομένων όπου ο ένας τύπος όγκου υπερισχύει έναντι του άλλου, οδηγώντας σε μοντέλα που δεν αναγνωρίζουν τη μειοψηφική κατηγορία. Η συγκεκριμένη διπλωματική εργασία εστιάζει στην εφαρμογή μεθόδων δειγματοληψίας, όπως η τυχαία υπερδειγματοληψία, η τυχαία υποδειγματοληψία, και οι τεχνικές SMOTE και ADASYN, για την εξισορρόπηση της κλάσης μειοψηφίας, με στόχο την παραγωγή μοντέλων που αναγνωρίζουν επαρκώς τόσο τους καρκινικούς όσο και τους καλοήθεις όγκους.Η απόδοση τριών ταξινομητών, συγκεκριμένα των Decision Trees, των Random Forests και του XGBoost, αξιολογήθηκε με τη χρήση αυτών των τεχνικών δειγματοληψίας και συγκρίθηκε με τους ίδιους ταξινομητές χωρίς δειγματοληψία. Επιπλέον, για να εκτιμηθεί ο αντίκτυπος της μη αντιμετώπισης του προβλήματος της ανισορροπίας των κλάσεων, δύο μοντέλα, συγκεκριμένα το Multilayer Perceptron και η λογιστική παλινδρόμηση LASSO με επιλογή χαρακτηριστικών, εφαρμόστηκαν στο σύνολο δεδομένων χωρίς δειγματοληψία και εξετάστηκε η απόδοσή τους. Η καλύτερη επιτευχθείσα ακρίβεια τόσο με όσο και χωρίς τεχνικές δειγματοληψίας ξεπέρασε το 96 % στο σύνολο δοκιμών.	el
heal.advisorName	Καρώνη-Ρίτσαρντσον, Χρυσηίς	el
heal.committeeMemberName	Χρυσαφίνος, Κωνσταντίνος	el
heal.committeeMemberName	Παπανικολάου, Βασίλης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	84 σ.	el
heal.fullTextAvailability	false