heal.abstract |
Μια από τις πιο κοινές και θανατηφόρες ασθένειες είναι ο καρκίνος που πλήττει εκατομμύρια άτομα
παγκοσμίως. Η ανίχνευση και η θεραπεία του καρκίνου έχουν προχωρήσει σημαντικά χάρη στην ιατρική
έρευνα, αλλά το θέμα εξακολουθεί να είναι περίπλοκο και δύσκολο και απαιτεί συνεχείς βελτιώσεις
στη μεθοδολογία και την τεχνολογία. Οι αλγόριθμοι μηχανικής μάθησης έχουν πρόσφατα επιδείξει
σημαντικές δυνατότητες στον τομέα της ιατρικής έρευνας, ιδίως στην ανάλυση τεράστιου όγκου
δεδομένων για τη διάγνωση κακοήθων όγκων. Ωστόσο, η ποιότητα και η ισορροπία των δεδομένων
εκπαίδευσης έχουν σημαντικό αντίκτυπο στο πόσο καλά αποδίδουν αυτοί οι αλγόριθμοι. Οι αλγόριθμοι
μηχανικής μάθησης μπορεί να αποδίδουν ανεπαρκώς σε μη ισορροπημένα σύνολα δεδομένων όπου
ο ένας τύπος όγκου υπερισχύει έναντι του άλλου, οδηγώντας σε μοντέλα που δεν αναγνωρίζουν
τη μειοψηφική κατηγορία. Η συγκεκριμένη διπλωματική εργασία εστιάζει στην εφαρμογή μεθόδων
δειγματοληψίας, όπως η τυχαία υπερδειγματοληψία, η τυχαία υποδειγματοληψία, και οι τεχνικές SMOTE
και ADASYN, για την εξισορρόπηση της κλάσης μειοψηφίας, με στόχο την παραγωγή μοντέλων
που αναγνωρίζουν επαρκώς τόσο τους καρκινικούς όσο και τους καλοήθεις όγκους.Η απόδοση τριών
ταξινομητών, συγκεκριμένα των Decision Trees, των Random Forests και του XGBoost, αξιολογήθηκε
με τη χρήση αυτών των τεχνικών δειγματοληψίας και συγκρίθηκε με τους ίδιους ταξινομητές χωρίς
δειγματοληψία. Επιπλέον, για να εκτιμηθεί ο αντίκτυπος της μη αντιμετώπισης του προβλήματος της
ανισορροπίας των κλάσεων, δύο μοντέλα, συγκεκριμένα το Multilayer Perceptron και η λογιστική
παλινδρόμηση LASSO με επιλογή χαρακτηριστικών, εφαρμόστηκαν στο σύνολο δεδομένων χωρίς
δειγματοληψία και εξετάστηκε η απόδοσή τους. Η καλύτερη επιτευχθείσα ακρίβεια τόσο με όσο και
χωρίς τεχνικές δειγματοληψίας ξεπέρασε το 96 % στο σύνολο δοκιμών. |
el |