Η ανάγκη αναζήτησης πληροφοριών από τεράστιες βάσεις δεδομένων , όπου οι μέχρι πρότινος κλασσικές μέθοδοι της στατιστικής δεν αποδεικνύονταν επαρκείς και ικανοποιητικές , οδήγησε στη διαδικασία της Εξόρυξης Δεδομένων (Data Mining). Πρόκειται για μια σειρά από τεχνικές που βασίζονται σε ανάπτυξη αλγορίθμων και είναι χρήσιμες σε πολλούς κλάδους όπως: η οικονομία , η βιοστατιστική, η δημογραφία και η μετεωρολογία. Στην παρούσα διπλωματική εργασία μελετήθηκαν οι εξής τεχνικές: τα Δέντρα Αποφάσεων, τα Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ) καθώς και η Λογιστική Παλινδρόμηση.
Το πρώτο κεφάλαιο περιλαμβάνει μια σύντομη εισαγωγή στις βασικές έννοιες του data mining , η οποία εξηγεί τις δύο βασικές κατηγορίες του, καθώς επίσης και τους τομείς στους οποίους εφαρμόζεται. Στη συνέχεια γίνεται ανάλυση της KDD διαδικασίας και τέλος μια μικρή εισαγωγή και μαθηματική περιγραφή του προβλήματος ταξινόμησης.
Στο δεύτερο κεφάλαιο αναλύονται οι τεχνικές εξόρυξης γνώσης. Στα Δέντρα Αποφάσεων μελετήθηκε ο Αλγόριθμος C&RT και στα Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ) αναλύθηκαν τα κύρια χαρακτηριστικά τους. Τέλος , παρουσιάζεται η μέθοδος της Λογιστικής Παλινδρόμησης και τρόποι με τους οποίους εκτιμούνται οι παράμετροι των μοντέλων.
Το τρίτο κεφάλαιο εξετάζει και παρουσιάζει τη χρήση των τεχνικών εξόρυξης δεδομένων για την κατασκευή μοντέλων βαθμολόγησης πιστοληπτικής ικανότητας (credit scoring). Αρχικά δίνεται ένας επίσημος ορισμός της βαθμολόγησης πιστοληπτικής ικανότητας , στη συνέχεια περιγράφεται η χρησιμότητα και τα πλεονεκτήματα της, καθώς και ορισμένες από τις εφαρμογές της. To μεγαλύτερο μέρος του κεφαλαίου περιλαμβάνει την εφαρμογή που πραγματοποιήθηκε πάνω σε πραγματικά οικονομικά δεδομένα με τη βοήθεια του προγράμματος Clementine SPSS, ενός λογισμικού εξόρυξης δεδομένων. Τα δεδομένα αυτά εφαρμόστηκαν στον Αλγόριθμο C&RT, στα νευρωνικά δίκτυα και στο μοντέλο της Λογιστικής Παλινδρόμησης με σκοπό την πρόβλεψη και τη σύγκριση των αποτελεσμάτων των μεθόδων στους παράγοντες της ακρίβειας (classification accuracy), της ευαισθησίας (sensitivity), της ειδικότητας (specificity), της θετικής προγνωστικής αξίας (positive predictive value) και της αρνητικής προγνωστικής αξίας (negative predictive value). Τέλος, στον επίλογο συνοψίζονται τα αποτελέσματα και εξάγονται κάποια συμπεράσματα που προκύπτουν από την ανάλυση των αποτελεσμάτων μας.
The need for extracting information from large databases, where up until recently the classical statistical methods were proven to be insufficient and not satisfactory enough, led to the development of the process of Data Mining (Data Mining). Data Mining process constitutes of a series of techniques based on the developing of various algorithms. These techniques can be applied in many different fields such as economics, biostatistics, demography and meteorology. This thesis examines the following techniques: Decision Trees, Artificial Neural Networks (ANN) and binary logistic regression.
The first chapter entails a brief introduction to basic concepts of data mining elaborating on its two basic categories and examines the fields in which it can be applied. It then analyze the KDD process and finally it gives a brief introduction and description of the mathematical problem of classification.
The second chapter analyzes the data mining techniques. For the Decision trees the C & RT algorithm was studied and for the Artificial Neural Networks (ANN) there main characteristics were examined. Finally, the logistic regression method is presented and means by which the parameters of the models are estimated.
The third chapter illustrates and discusses the use of data mining techniques to build credit scoring models. Initially it is given a formal definition of credit scoring followed by a description of its efficacy and advantages along with some of its applications. The biggest part of the chapter is dedicated in describing the application made on real financial data with the help of the Clementine SPSS, a data mining software. These data were applied in the C & RT algorithm, the neural networks and at the model of logistic regression to predict and compare the results of the methods in the factors of classification accuracy, sensitivity, specificity, the positive predictive value and the negative predictive value. Closing the thesis, results are summarized and conclusions from the analysis of our results are drawn.