Μέθοδοι ταξινόμησης για δεδομένα υψηλών διαστάσεων και εφαρμογή σε πείραμα μελέτης πελατειακών σχέσεων (Customer relationship management - CRM)

Χατζηθεοδωρίδη, Σοφία; Chatzitheodoridi, Sofia

dc.contributor.author	Χατζηθεοδωρίδη, Σοφία	el
dc.contributor.author	Chatzitheodoridi, Sofia	en
dc.date.accessioned	2016-02-18T09:37:00Z
dc.date.available	2016-02-18T09:37:00Z
dc.date.issued	2016-02-18
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/42030
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.10259
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Ανάλυση δεδομένων	el
dc.subject	Εξόρυξη δεδομένων	el
dc.subject	Στατιστική	el
dc.subject	Big data	en
dc.subject	Data mining	en
dc.subject	Statistics	en
dc.title	Μέθοδοι ταξινόμησης για δεδομένα υψηλών διαστάσεων και εφαρμογή σε πείραμα μελέτης πελατειακών σχέσεων (Customer relationship management - CRM)	el
dc.title	Classification methods in high dimensional data analysis with application in customer relationship management (CRM)	en
heal.type	bachelorThesis
heal.classification	Ανάλυση δεδομένων	el
heal.classification	Data mining	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2015-03-03
heal.abstract	Η εκρηκτική ανάπτυξη της τεχνολογίας και πιο συγκεκριμένα της πληροφορικής, τις τελευταίες δεκαετίες έχει καταστήσει εύκολη και "οικονομική" την συσσώρευση τεράστιου όγκου πληροφορίας σχεδόν σε όλους τους τομείς της ανθρώπινης δραστηριότητας. Ωστόσο, οι βάσεις δεδομένων που προκύπτουν από οικονομικές και επιστημονικές δραστηριότητες έχουν πυροδοτήσει νέες εξελίξεις στον τομέα της στατιστικής, καθώς είναι αδύνατον να αναλυθούν με τις κλασσικές μεθόδους στατιστικής συμπερασματολογίας (π.χ μέθοδος ελαχίστων τετραγώνων). Πιο συγκεκριμένα, το πρόβλημα της στατιστικής μοντελοποίησης και του εντοπισμού των σημαντικών μεταβλητών σε υψηλών διαστάσεων σύνολα δεδομένων έχει οδηγήσει στην ανάπτυξη του κλάδου της Εξόρυξης Δεδομένων (Data Mining). Η Εξόρυξη Δεδομένων αποτελείται από μια σειρά τεχνικών που βασίζονται σε αλγορίθμους, αναλυτικές και αριθμητικές μεθόδους που επιτρέπουν την παραγωγή μοντέλων πρόβλεψης με αρκετά μικρό σφάλμα. Στην παρούσα διπλωματική θα εστιάσουμε στα Δέντρα Αποφάσεων (Decision Trees), τα Νευρωνικά Δίκτυα (Neural Nets) και τις Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines). Στο πρώτο κεφάλαιο, θα κάνουμε μια εισαγωγή στo τι είναι ο κλάδος του Data Mining, παρουσιάζοντας τις βασικές του κατηγορίες και θα προχωρήσουμε στην παρουσίαση της διαδικασίας KDD (Knowledge Discovery in Databases). Στην συνέχεια θα γίνει μια σύντομη περιγραφή του προβλήματος της ταξινόμησης και μια πρώτη παρουσίαση των μεθόδων με τις οποίες θα ασχοληθούμε στα επόμενα κεφάλαια. Το δεύτερο κεφάλαιο επικεντρώνεται αποκλειστικά στα Δέντρα Αποφάσεων ως τεχνική εξόρυξης γνώσης. Ειδικότερα, μελετήθηκαν οι αλγόριθμοι CHAID, C4.5, CART και QUEST και αναλύθηκαν τα χαρακτηριστικά τους καθώς και οι διαφορές στην δομή τους. Στο τρίτο κεφάλαιο ασχολείται με τα Νευρωνικά Δίκτυα, παρουσιάζοντας τις βασικές δομές τους, ενώ στο τέταρτο κεφάλαιο αναλύονται οι Μηχανές Διανυσμάτων Υποστήριξης. Το πέμπτο κεφάλαιο αφορά την αξιολόγηση της απόδοσης των παραπάνω μεθόδων με την βοήθεια τεχνικών όπως η Διασταυρωμένη Επικύρωση (Cross-validation) και οι καμπύλες ROC αλλά και άλλων μέτρων όπως η ευαισθησία και η ειδικότητα. Το έκτο και τελευταίο κεφάλαιο αυτής της διπλωματικής, αποτελεί την πρακτική εφαρμογή των τριών μεθόδων που συζητήθηκαν σε πραγματικά δεδομένα, όπως αυτά παρουσιάστηκαν στον παγκόσμιο ετήσιο διαγωνισμό Data Mining KDD Cup 2009. Τα δεδομένα αυτά παρασχέθηκαν από την γαλλική εταιρεία τηλεπικοινωνιών Orange και αφορούν 100.000 πελάτες της εταιρείας. Μέσω των 230 μεταβλητών, που αποτελούν την "πληροφορία" για κάθε πελάτη, έχουμε τρεις στόχους. Πρώτον, να προβλέψουμε την πιθανότητα κάποιος πελάτης να αλλάξει πάροχο τηλεφωνίας, δεύτερον να αγοράσει νέα προιόντα και υπηρεσίες και τρίτον πώς θα ανταποκριθεί στην προβολή νέου διαφημιστικού υλικού. Με βάση αυτά τα τρία ζητήματα, η εργασία μας θα επικεντρωθεί στην ανάδειξη της μεθόδου (από αυτές που παρουσιάστηκαν) που παρέχει τις πιο αξιόπιστες προβλέψεις πάνω σε αυτό το πρόβλημα ανάλυσης δεδομένων. Τα στατιστικά πακέτα που χρησιμοποιήθηκαν για αυτή την διαδικασία ήταν το SPSS 22 και η R.	el
heal.abstract	The exponential growth of technology, especially in computer science, in the last decades, has made the accumulation of vast amount of information on almost every human activity, not only cheap but also easy to access. However, the databases that have occurred from economic and scientific activities have triggered new development in the field of statistics, since they cannot be analyzed with the already known methods of statistical conclusion ( i.e the least squares method). Furthermore, the problem of statistical modelling and locating the key variables in high dimensional datasets has led to the development of the field of Data Mining. Data Mining consists of a series of techniques that are based on algorithms, analytical and numerical methods that offer us prediction models of minimal error. In this thesis, we will focus on Decision Trees, Neural Nets and Support Vector Machines. In the first chapter, we will introduce the basic principles of Data Mining along with the analysis of KDD (Knowledge Discovery in Databases) procedure, followed by a short discussion on the classification problem. In addition, there will be a short presentation of the methods that will be analyzed in the following chapters. In the second chapter, we will focus on Decision Trees as a method of classifying information. In particular, we studied the algorithms of CHAID, C4.5, CART and QUEST by emphasizing on their key features and structural differences. The third chapter deals with Neural Nets by presenting their basic architectural structures, while on the fourth chapter we engage with Support Vector Machines. In the fifth chapter, assessment methods ( i .e Cross-Validation and ROC Curves) are discussed alongside with other measures that contribute to the evaluation process of a produced model, such as sensitivity and specificity. The final chapter of this thesis is consisted of the implementation of the above classifying methods in a real dataset, as this was presented in the annual competition of Data Mining KDD Cup in 2009. The dataset was provided by the French Telecommunications Company Orange and involved 100.000 company clients. There are 230 variables, which are considered as the “information” for each client, and three response variables. We are asked to assess if there is a chance a client changing service provider (appetency) or purchasing new products and services (churn) and predict the reaction of clients to new advertising material (up- selling). Moreover, this thesis will focus on revealing which of the classifying methods described above fits the best to this data, in order to have the most reliable predictions. For the data analysis, SPSS 22 and R software package were used.	en
heal.advisorName	Κουκουβίνος, Χρήστος	el
heal.committeeMemberName	Σπηλιώτης, Ιωάννης	el
heal.committeeMemberName	Βόντα, Φιλία	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών	el
heal.academicPublisherID	ntua
heal.numberOfPages	156 σ.	el
heal.fullTextAvailability	true