Δύο πολύ διαδεδομένες μέθοδοι για την πρόβλεψη αποτελούν τα δέντρα ταξινόμησης και παλινδρόμησης (Classification and Regression Tree -CART) και η λογιστική παλινδρόμηση. Για την αξιολόγηση της ικανότητας πρόβλεψης μπορεί να χρησιμοποιηθεί σαν δείκτης το εμβαδό κάτω από την Receiver Operating Characteristics (ROC) καμπύλη που σχεδιάζεται με βάση τα αποτελέσματα των μεθόδων που ακολουθήθηκαν.
Το πρώτο κεφάλαιο της παρούσας εργασίας, αποτελείται από θεωρητικά στοιχεία τα οποία σχετίζονται με την έννοια της ταξινόμησης, την κατασκευή και την αξιολόγηση των δέντρων CART, τη μέθοδο της λογιστικής παλινδρόμησης και τις καμπύλες ROC. Επίσης, παρουσιάζονται κάποια στοιχεία σχετικά με μεθόδους διαχείρισης των δεδομένων μας, όπως το cross-validation και το bootstrapping.
Το δεύτερο κεφάλαιο της εργασίας αφορά μελέτες που έχουν πραγματοποιηθεί (Austin (2007), Austin et al. (2010), Faltus et al. (2008), Tsien et. al. (1998) οι οποίες συγκρίνουν, με χρήση του εμβαδού κάτω από μια καμπύλη ROC, την προβλεπτική ικανότητα που εμφάνισε η χρήση των δέντρων CART και η λογιστική παλινδρόμηση πάνω σε ιατρικά δεδομένα.
Two very popular methods for prediction are the Classification And Regression Trees (Classification and Regression Tree-CART) and Logistic Regression. To assess the predictive accuracy, the area under the Receiver Operating Characteristics (ROC) curve can be used.
The first chapter is about the concept of classification, construction and evaluation of CART, logistic regression models, and ROC curves. Some information on cross-validation and bootstrapping is also available.
The second chapter is a review of four previous studies (Austin (2007), Austin et al. (2010), Faltus et al. (2008), Tsien et. Al. (1998) which compare the predictive accuracy of CART and Logistic Regression models, using the area under a ROC curve.