HEAL DSpace

Μέθοδοι ταξινόμησης για δεδομένα υψηλών διαστάσεων και εφαρμογή σε πείραμα μελέτης πελατειακών σχέσεων (Customer relationship management - CRM)

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Χατζηθεοδωρίδη, Σοφία el
dc.contributor.author Chatzitheodoridi, Sofia en
dc.date.accessioned 2016-02-18T09:37:00Z
dc.date.available 2016-02-18T09:37:00Z
dc.date.issued 2016-02-18
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/42030
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.10259
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Ανάλυση δεδομένων el
dc.subject Εξόρυξη δεδομένων el
dc.subject Στατιστική el
dc.subject Big data en
dc.subject Data mining en
dc.subject Statistics en
dc.title Μέθοδοι ταξινόμησης για δεδομένα υψηλών διαστάσεων και εφαρμογή σε πείραμα μελέτης πελατειακών σχέσεων (Customer relationship management - CRM) el
dc.title Classification methods in high dimensional data analysis with application in customer relationship management (CRM) en
heal.type bachelorThesis
heal.classification Ανάλυση δεδομένων el
heal.classification Data mining en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2015-03-03
heal.abstract Η εκρηκτική ανάπτυξη της τεχνολογίας και πιο συγκεκριμένα της πληροφορικής, τις τελευταίες δεκαετίες έχει καταστήσει εύκολη και "οικονομική" την συσσώρευση τεράστιου όγκου πληροφορίας σχεδόν σε όλους τους τομείς της ανθρώπινης δραστηριότητας. Ωστόσο, οι βάσεις δεδομένων που προκύπτουν από οικονομικές και επιστημονικές δραστηριότητες έχουν πυροδοτήσει νέες εξελίξεις στον τομέα της στατιστικής, καθώς είναι αδύνατον να αναλυθούν με τις κλασσικές μεθόδους στατιστικής συμπερασματολογίας (π.χ μέθοδος ελαχίστων τετραγώνων). Πιο συγκεκριμένα, το πρόβλημα της στατιστικής μοντελοποίησης και του εντοπισμού των σημαντικών μεταβλητών σε υψηλών διαστάσεων σύνολα δεδομένων έχει οδηγήσει στην ανάπτυξη του κλάδου της Εξόρυξης Δεδομένων (Data Mining). Η Εξόρυξη Δεδομένων αποτελείται από μια σειρά τεχνικών που βασίζονται σε αλγορίθμους, αναλυτικές και αριθμητικές μεθόδους που επιτρέπουν την παραγωγή μοντέλων πρόβλεψης με αρκετά μικρό σφάλμα. Στην παρούσα διπλωματική θα εστιάσουμε στα Δέντρα Αποφάσεων (Decision Trees), τα Νευρωνικά Δίκτυα (Neural Nets) και τις Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines). Στο πρώτο κεφάλαιο, θα κάνουμε μια εισαγωγή στo τι είναι ο κλάδος του Data Mining, παρουσιάζοντας τις βασικές του κατηγορίες και θα προχωρήσουμε στην παρουσίαση της διαδικασίας KDD (Knowledge Discovery in Databases). Στην συνέχεια θα γίνει μια σύντομη περιγραφή του προβλήματος της ταξινόμησης και μια πρώτη παρουσίαση των μεθόδων με τις οποίες θα ασχοληθούμε στα επόμενα κεφάλαια. Το δεύτερο κεφάλαιο επικεντρώνεται αποκλειστικά στα Δέντρα Αποφάσεων ως τεχνική εξόρυξης γνώσης. Ειδικότερα, μελετήθηκαν οι αλγόριθμοι CHAID, C4.5, CART και QUEST και αναλύθηκαν τα χαρακτηριστικά τους καθώς και οι διαφορές στην δομή τους. Στο τρίτο κεφάλαιο ασχολείται με τα Νευρωνικά Δίκτυα, παρουσιάζοντας τις βασικές δομές τους, ενώ στο τέταρτο κεφάλαιο αναλύονται οι Μηχανές Διανυσμάτων Υποστήριξης. Το πέμπτο κεφάλαιο αφορά την αξιολόγηση της απόδοσης των παραπάνω μεθόδων με την βοήθεια τεχνικών όπως η Διασταυρωμένη Επικύρωση (Cross-validation) και οι καμπύλες ROC αλλά και άλλων μέτρων όπως η ευαισθησία και η ειδικότητα. Το έκτο και τελευταίο κεφάλαιο αυτής της διπλωματικής, αποτελεί την πρακτική εφαρμογή των τριών μεθόδων που συζητήθηκαν σε πραγματικά δεδομένα, όπως αυτά παρουσιάστηκαν στον παγκόσμιο ετήσιο διαγωνισμό Data Mining KDD Cup 2009. Τα δεδομένα αυτά παρασχέθηκαν από την γαλλική εταιρεία τηλεπικοινωνιών Orange και αφορούν 100.000 πελάτες της εταιρείας. Μέσω των 230 μεταβλητών, που αποτελούν την "πληροφορία" για κάθε πελάτη, έχουμε τρεις στόχους. Πρώτον, να προβλέψουμε την πιθανότητα κάποιος πελάτης να αλλάξει πάροχο τηλεφωνίας, δεύτερον να αγοράσει νέα προιόντα και υπηρεσίες και τρίτον πώς θα ανταποκριθεί στην προβολή νέου διαφημιστικού υλικού. Με βάση αυτά τα τρία ζητήματα, η εργασία μας θα επικεντρωθεί στην ανάδειξη της μεθόδου (από αυτές που παρουσιάστηκαν) που παρέχει τις πιο αξιόπιστες προβλέψεις πάνω σε αυτό το πρόβλημα ανάλυσης δεδομένων. Τα στατιστικά πακέτα που χρησιμοποιήθηκαν για αυτή την διαδικασία ήταν το SPSS 22 και η R. el
heal.abstract The exponential growth of technology, especially in computer science, in the last decades, has made the accumulation of vast amount of information on almost every human activity, not only cheap but also easy to access. However, the databases that have occurred from economic and scientific activities have triggered new development in the field of statistics, since they cannot be analyzed with the already known methods of statistical conclusion ( i.e the least squares method). Furthermore, the problem of statistical modelling and locating the key variables in high dimensional datasets has led to the development of the field of Data Mining. Data Mining consists of a series of techniques that are based on algorithms, analytical and numerical methods that offer us prediction models of minimal error. In this thesis, we will focus on Decision Trees, Neural Nets and Support Vector Machines. In the first chapter, we will introduce the basic principles of Data Mining along with the analysis of KDD (Knowledge Discovery in Databases) procedure, followed by a short discussion on the classification problem. In addition, there will be a short presentation of the methods that will be analyzed in the following chapters. In the second chapter, we will focus on Decision Trees as a method of classifying information. In particular, we studied the algorithms of CHAID, C4.5, CART and QUEST by emphasizing on their key features and structural differences. The third chapter deals with Neural Nets by presenting their basic architectural structures, while on the fourth chapter we engage with Support Vector Machines. In the fifth chapter, assessment methods ( i .e Cross-Validation and ROC Curves) are discussed alongside with other measures that contribute to the evaluation process of a produced model, such as sensitivity and specificity. The final chapter of this thesis is consisted of the implementation of the above classifying methods in a real dataset, as this was presented in the annual competition of Data Mining KDD Cup in 2009. The dataset was provided by the French Telecommunications Company Orange and involved 100.000 company clients. There are 230 variables, which are considered as the “information” for each client, and three response variables. We are asked to assess if there is a chance a client changing service provider (appetency) or purchasing new products and services (churn) and predict the reaction of clients to new advertising material (up- selling). Moreover, this thesis will focus on revealing which of the classifying methods described above fits the best to this data, in order to have the most reliable predictions. For the data analysis, SPSS 22 and R software package were used. en
heal.advisorName Κουκουβίνος, Χρήστος el
heal.committeeMemberName Σπηλιώτης, Ιωάννης el
heal.committeeMemberName Βόντα, Φιλία el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών el
heal.academicPublisherID ntua
heal.numberOfPages 156 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα