Transfer learning and domain adaptation in credit risk problems

Καϊκτζόγλου, Μαρία; Kaiktzoglou, Maria

dc.contributor.author	Καϊκτζόγλου, Μαρία	el
dc.contributor.author	Kaiktzoglou, Maria	en
dc.date.accessioned	2022-07-15T11:34:07Z
dc.date.available	2022-07-15T11:34:07Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/55396
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.23094
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/gr/	*
dc.subject	Μεταφερόμενη μάθηση	el
dc.subject	Προσαρμογή τομέων	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Πιστωτικός κίνδυνος	el
dc.subject	Transfer learning	en
dc.subject	Domain adaptation	en
dc.subject	Απόκλιση κατανομών	el
dc.subject	Distributions divergence	en
dc.subject	Credit risk	en
dc.subject	Machine learning	en
dc.title	Transfer learning and domain adaptation in credit risk problems	en
heal.type	masterThesis
heal.classification	Μηχανική Μάθηση	el
heal.classification	Machine Learning	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-03-04
heal.abstract	Στη σύγχρονη αγορά όπου η πιστωτική ζήτηση αυξάνεται ολοένα και περισσότερο, η ανάγκη για ανάλυση Πιστωτικού Κινδύνου είναι μεγάλης σημασίας για κάθε οργανισμό που εκδίδει δάνεια. Τις τελευταίες δεκαετίες χρησιμοποιούνται μοντέλα μηχανικής μάθησης για να σκιαγραφήσουν το προφίλ των αιτούντων και για να βαθμολογήσουν την πιστωτική τους φερεγγυότητα. Αν και η μηχανική μάθηση έχει προσφέρει στην Ανάλυση Κινδύνου δυνατά εργαλεία, διάφορες καταστάσεις στην πραγματική ζωή συχνά θέτουν περιορισμούς ή εμπεριέχουν μή εμφανείς επιπλοκές οι οποίες εμποδίζουν την εκμάθηση του μοντέλου. Δύο χαρακτηριστικά παραδείγματα είναι η έλλειψη δεδομένων και η μεταβολή της κατανομής των δεδομένων στο χρόνο ή ανά τόπο ή ανά ομάδες ανθρώπων και λοιπά. Στην παρούσα εργασία μας απασχολεί το πρόβλημα της μεταβολής της κατανομής των δεδομένων στο πλαίσιο προβλημάτων Πιστωτικού Κινδύνου και χρησιμοποιούμε Μεταφερόμενη Μάθηση για να το αντιμετωπίσουμε. Χρησιμοποιούμε δύο διαφορετικά σύνολα δεδομένων. Στο πρώτο χρησιμοποιούμε Μεταφερόμενη Μάθηση για να προβλέψουμε την κλάση των εκπρόθεσμων οφειλών μεταξύ των αιτούντων υψηλών ποσών δανείου, αξιοποιώντας τη γνώση από τους αιτούντες χαμηλότερων ποσών δανείου. Στο δεύτερο τη χρησιμοποιούμε για να προβλέψουμε την κλάση των εκπρόθεσμων οφειλετών που είναι πελάτες μιας fintech εταιρείας σε μια συγκεκριμένη χώρα, με βάση τη γνώση που υπάρχει από τους πελάτες της εταιρείας σε μια άλλη χώρα. Αφότου κάνουμε μια αρχική προεπεξεργασία των δεδομένων και χτίσουμε κάποιους καλούς ταξινομητές βάσης, εφαρμόζουμε δύο μεθόδους Μεταφερόμενης Μάθησης και μελετάμε το πρόβλημα κάνοντας πειραματισμούς και με τον τρόπο που αλλάζει η κατανομή των δεδομένων, από το σύνολο εκπαίδευσης στο σύνολο επικύρωσης. Χρησιμοποιούμε το λογιστικό μοντέλο και τους ταξινομητές Gradient Boosting και Τυχαίο Δάσος, αφού έχουν χρησιμοποιηθεί και στο παρελθόν σε παρόμοιες έρευνες. Τα αποτελέσματα δείχνουν ότι η Μεταφερόμενη Μάθηση μπορεί να βοηθήσει στο πρόβλημα της μεταβολής στην κατανομή των δεδομένων, αν και είναι επίσης δυνατό να επηρεάσει αρνητικά τη μάθηση. Κάθε αλγόριθμος έχει διαφορετική συμπεριφορά με τις μεθόδους Μεταφερόμενης Μάθησης και τα αποτελέσματα φαίνονται να εξαρτώνται σημαντικά από το βαθμό μεταβολής στην κατανομή. Συζητάμε τα αποτελέσματα με βάση το θεωρητικό υπόβαθρο των αλγορίθμων και των μεθόδων και με την υπάρχουσα έρευνα, και δίνουμε κάποιες πιθανές εξηγήσεις για κάθε περίπτωση. Τέλος, προτείνουμε ιδέες για μελλοντική έρευνα που μπορεί να ακολουθήσει αυτήν την εργασία η οποίες θα μπορούσαν να διαφωτίουν περισσότερο κάποια από τα αποτελέσματα και να συνεισφέρουν στο να αναπτυχθούν πιο κατάλληλες στρατηγικές Μεταφερόμενης Μάθησης.	el
heal.abstract	In the contemporary market where the demand for credit is growing more and more, the necessity of Credit Risk analysis is of major importance to any institution that issues loans. The last decades machine learning models are used to profile and score the creditworthiness of the applicants. Although machine learning has provided to Credit Risk strong tools, real world situations often pose constraints or hide unseen complications that obstruct the models’ learning. Two characteristic examples are the shortage of data and the change of the data’s distribution over time or area or groups of people etc. In this thesis we are concerned with the problem of the change in the distribution of the data in the Credit Risk context and we are using Transfer Learning to confront it. We are using two different datasets. In the first we use Transfer Learning to predict the class of defaulters of high amount applicants by exploiting the knowledge from lower amount applicants. In the second we use it to predict defaulters who are clients of a fintech company in a certain country based on the knowledge possessed from the company’s clients in another country. After preprocessing the data and building some good base classifiers, we apply two Transfer Learning methods and thus we study the problem by experimenting with some variations regarding the distribution change between the data that is used for training and the data that is used for testing. We use the logistic model, Gradient Boosting and Random Forest as the base classifiers, as those have been used in past research on this topic. Our results show that Transfer Learning can help in the problem of change in the distribution, although it is also possible to negatively affect the learning. Each algorithm demonstrates a distinct behavior under the Transfer Learning methods and the results also seem to strongly rely on the degree of the change in the distribution. We discuss our results based on the theoretical background of the algorithms and methods and existing research and we suggest some possible explanations for each case. We finally propose ideas for future research that can follow up this thesis that would probably shed more light to some results and help develop more adequate Transfer Learning strategies.	en
heal.advisorName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false