Μέθοδοι επιλογής μεταβλητών για δεδομένα πωλήσεων από την εταιρεία IRI

Κεφάλα, Αναστασία; Kefala, Anastasia

dc.contributor.author	Κεφάλα, Αναστασία	el
dc.contributor.author	Kefala, Anastasia	en
dc.date.accessioned	2019-03-21T10:54:45Z
dc.date.available	2019-03-21T10:54:45Z
dc.date.issued	2019-03-21
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/48507
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.16096
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Μεταβλητές	el
dc.subject	Υπολογιστικές μέθοδοι	el
dc.subject	Ποινικοποιημένες τεχνικές	el
dc.subject	Επαναληπτικές μέθοδοι	el
dc.subject	Μέθοδοι επιλογής μεταβλητών	el
dc.subject	Variable selection	en
dc.subject	lasso	en
dc.subject	Ridge	en
dc.subject	Forward	en
dc.subject	Backward	en
dc.subject	Stepwise	en
dc.title	Μέθοδοι επιλογής μεταβλητών για δεδομένα πωλήσεων από την εταιρεία IRI	el
heal.type	bachelorThesis
heal.classification	Στατιστική και μαθηματικά	el
heal.classificationURI	http://data.seab.gr/concepts/612439338f883f5eb6bd1c572627da57a3b10bfb
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2018-10-18
heal.abstract	Η γραμμική ανάλυση παλινδρόμησης αποτελείται από μια συλλογή από τεχνικές και μεθόδους οι οποίες χρησιμοποιούνται για να ερευνήσουν και να εξηγήσουν τις πιθανές σχέσεις μεταξύ μεταβλητών (χαρακτηριστικών). Ωστόσο, ένα από τα πλέον σημαντικά προβλήματα που απασχολεί την ανάλυση παλινδρόμησης είναι η επιλογή ενός μικρότερου συνόλου από το αρχικό σύνολο των ανεξάρτητων μεταβλητών που είναι διαθέσιμες κάθε φορά στο εκάστοτε γραμμικό μοντέλο. Με την δημιουργία αυτού του υποσυνόλου επιτυγχάνεται από τη μία εξοικονόμηση κόστους κατά την πρόβλεψη της εξαρτημένης μεταβλητής, και από την άλλη αποτρέπεται η μεγάλη απώλεια στην αποτελεσματικότητα του μοντέλου πρόβλεψης. Στη παρούσα εργασία παρουσιάζεται ένα πλήθος από μεθόδους και κριτήρια για την επιλογή ενός «βέλτιστου» συνόλου ανεξάρτητων μεταβλητών για την πρόβλεψη μιας εξαρτημένης μεταβλητής μέσω των επεξηγηματικών μεταβλητών του εκάστοτε γραμμικού μοντέλου, με ιδιαίτερη έμφαση στις νέες ποινικοποιημένες μεθόδους. Το πρώτο κεφάλαιο, αποτελεί μια εισαγωγή στο πολλαπλό γραμμικό μοντέλο και στη βασική τεχνική εκτίμησης των συντελεστών του γραμμικού μοντέλου. Στη συνέχεια, παρουσιάζεται η μέθοδος της εξέτασης όλων των δυνατών μοντέλων του γραμμικού χώρου που εξετάζεται, δηλαδή όλων των δυνατών συνδυασμών των διαθέσιμων επεξηγηματικών μεταβλητών (All Possible Regressions ή Full Enumeration), δίνοντας αναλυτικά τα διάφορα κριτήρια που έχουν προταθεί για τον εντοπισμό του κατάλληλου μοντέλου καθώς και μία παραλλαγή αυτής, τη μέθοδο επιλογής καλύτερου υποσυνόλου (Best Subset Selection). Στη συνέχεια παρουσιάζονται οι πιο γνωστές μέθοδοι επιλογής μεταβλητών, οι διαδικασίες κατά βήματα. Με αυτές δημιουργείται μια αλληλουχία γραμμικών μοντέλων εισάγοντας ή αφαιρώντας κάθε φορά μια επεξηγηματική μεταβλητή ή συνδυάζοντας και τα δύο, μέχρις ότου να φτάσουν σε κάποιο σημείο όπου σύμφωνα με ορισμένα κριτήρια που χρησιμοποιούμε να μην μπορούν να εισαχθούν ή να εξαχθούν πλεόν άλλες επεξηγηματικές μεταβλητές από το εξεταζόμενο μοντέλο. Έπειτα, παρουσιάζουμε ένα συνηθισμένο φαινόμενο, όταν έχουμε μεγάλο αριθμό επεξηγηματικών μεταβλητών, το πρόβλημα της πολυσυγγραμμικότητας. Καταλήγουμε έτσι στην ανάλυση των ποινικοποιημένων μεθόδων ή αλλιώς μεθόδων συρρίκνωσης Ridge και LASSO, αναλύοντας την θεωρία που τις ορίζει και τις υλοποιεί. Στο τελευταίο μέρος γίνεται η εφαρμογή των μεθόδων εντοπισμού του «βέλτιστου» συνόλου επεξηγηματικών μεταβλητών σε ένα γραμμικό μοντέλο και γίνεται σύγκριση των μεθόδων που παρουσιάστηκαν στα πλαίσια της παρούσας διπλωματικής. Το δείγμα που χρησιμοποιήσαμε αποτελείται από πραγματικά δεδομένα που αφορούν τον όγκο πωλήσεων ενός προϊόντος (μεταβλητή απόκρισης) και μεταβλητές που υποθέτουμε ότι τις ερμηνεύουν (τις πωλήσεις αυτές). Το πλήθος των διαθέσιμων παρατηρήσεων είναι 288 εβδομάδες και 141 το πλήθος των μεταβλητών που θα χρησιμοποιηθούν.	el
heal.abstract	Linear regression analysis consists of a collection of techniques and methods used to investigate and explain the possible relationships between variables. However, one of the most important problems involved in balancing analysis is the selection of a smaller set of the original set of independent variables available each time in the particular linear model. By creating this subset, on the other hand, cost savings are made in the prediction of the dependent variable, and on the other it avoids a great loss in the efficiency of the prediction model. This paper presents a set of methods and criteria for selecting an "optimal" set of independent variables to predict a dependent variable through the explanatory variables of the particular linear model, with particular emphasis on new penalized methods. The first chapter is an introduction to the multiple linear model and the basic technique for estimating the coefficients of the linear model. Then, we present the method of "examining all possible models", all possible combinations of independent variables (All Possible Regressions), analyzing the various criteria proposed for identifying the appropriate model as well as a variation of this, the method of Best Subset Selection. Below, we present the widely known methods of selecting variables, the procedures in steps. These procedures create a sequence of linear models by inserting or removing an explanatory variable each time or combining both until they reach a point where, according to certain criteria we use, no other explanatory variables can be imported or extracted by the model that we examine. Then, we present a common phenomenon, when we have a large number of explanatory variables, the problem of multicollinearity. We conclude in the analysis of penalized or shrinking methods Ridge and LASSO, analyzing the theory that defines them and implements them. In the last part, we apply the methods of locating the optimal set of explanatory variables in a linear model and compare the methods presented in the present thesis. The sample we used consists of actual sales volume data for a product (response variable) and variables that we assume that they interpret (these sales). The number of available observations is 288 weeks and 141 the number of variables to be used.	en
heal.advisorName	Φουσκάκης, Δημήτριος	el
heal.committeeMemberName	Κοκκίνης, Βασίλειος	el
heal.committeeMemberName	Παπανικολάου, Βασίλης	el
heal.committeeMemberName	Φουσκάκης, Δημήτριος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών	el
heal.academicPublisherID	ntua
heal.numberOfPages	141 σ.
heal.fullTextAvailability	true