HEAL DSpace

Μέθοδοι επιλογής μεταβλητών για δεδομένα πωλήσεων από την εταιρεία IRI

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κεφάλα, Αναστασία el
dc.contributor.author Kefala, Anastasia en
dc.date.accessioned 2019-03-21T10:54:45Z
dc.date.available 2019-03-21T10:54:45Z
dc.date.issued 2019-03-21
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/48507
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.16096
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μεταβλητές el
dc.subject Υπολογιστικές μέθοδοι el
dc.subject Ποινικοποιημένες τεχνικές el
dc.subject Επαναληπτικές μέθοδοι el
dc.subject Μέθοδοι επιλογής μεταβλητών el
dc.subject Variable selection en
dc.subject lasso en
dc.subject Ridge en
dc.subject Forward en
dc.subject Backward en
dc.subject Stepwise en
dc.title Μέθοδοι επιλογής μεταβλητών για δεδομένα πωλήσεων από την εταιρεία IRI el
heal.type bachelorThesis
heal.classification Στατιστική και μαθηματικά el
heal.classificationURI http://data.seab.gr/concepts/612439338f883f5eb6bd1c572627da57a3b10bfb
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-10-18
heal.abstract Η γραμμική ανάλυση παλινδρόμησης αποτελείται από μια συλλογή από τεχνικές και μεθόδους οι οποίες χρησιμοποιούνται για να ερευνήσουν και να εξηγήσουν τις πιθανές σχέσεις μεταξύ μεταβλητών (χαρακτηριστικών). Ωστόσο, ένα από τα πλέον σημαντικά προβλήματα που απασχολεί την ανάλυση παλινδρόμησης είναι η επιλογή ενός μικρότερου συνόλου από το αρχικό σύνολο των ανεξάρτητων μεταβλητών που είναι διαθέσιμες κάθε φορά στο εκάστοτε γραμμικό μοντέλο. Με την δημιουργία αυτού του υποσυνόλου επιτυγχάνεται από τη μία εξοικονόμηση κόστους κατά την πρόβλεψη της εξαρτημένης μεταβλητής, και από την άλλη αποτρέπεται η μεγάλη απώλεια στην αποτελεσματικότητα του μοντέλου πρόβλεψης. Στη παρούσα εργασία παρουσιάζεται ένα πλήθος από μεθόδους και κριτήρια για την επιλογή ενός «βέλτιστου» συνόλου ανεξάρτητων μεταβλητών για την πρόβλεψη μιας εξαρτημένης μεταβλητής μέσω των επεξηγηματικών μεταβλητών του εκάστοτε γραμμικού μοντέλου, με ιδιαίτερη έμφαση στις νέες ποινικοποιημένες μεθόδους. Το πρώτο κεφάλαιο, αποτελεί μια εισαγωγή στο πολλαπλό γραμμικό μοντέλο και στη βασική τεχνική εκτίμησης των συντελεστών του γραμμικού μοντέλου. Στη συνέχεια, παρουσιάζεται η μέθοδος της εξέτασης όλων των δυνατών μοντέλων του γραμμικού χώρου που εξετάζεται, δηλαδή όλων των δυνατών συνδυασμών των διαθέσιμων επεξηγηματικών μεταβλητών (All Possible Regressions ή Full Enumeration), δίνοντας αναλυτικά τα διάφορα κριτήρια που έχουν προταθεί για τον εντοπισμό του κατάλληλου μοντέλου καθώς και μία παραλλαγή αυτής, τη μέθοδο επιλογής καλύτερου υποσυνόλου (Best Subset Selection). Στη συνέχεια παρουσιάζονται οι πιο γνωστές μέθοδοι επιλογής μεταβλητών, οι διαδικασίες κατά βήματα. Με αυτές δημιουργείται μια αλληλουχία γραμμικών μοντέλων εισάγοντας ή αφαιρώντας κάθε φορά μια επεξηγηματική μεταβλητή ή συνδυάζοντας και τα δύο, μέχρις ότου να φτάσουν σε κάποιο σημείο όπου σύμφωνα με ορισμένα κριτήρια που χρησιμοποιούμε να μην μπορούν να εισαχθούν ή να εξαχθούν πλεόν άλλες επεξηγηματικές μεταβλητές από το εξεταζόμενο μοντέλο. Έπειτα, παρουσιάζουμε ένα συνηθισμένο φαινόμενο, όταν έχουμε μεγάλο αριθμό επεξηγηματικών μεταβλητών, το πρόβλημα της πολυσυγγραμμικότητας. Καταλήγουμε έτσι στην ανάλυση των ποινικοποιημένων μεθόδων ή αλλιώς μεθόδων συρρίκνωσης Ridge και LASSO, αναλύοντας την θεωρία που τις ορίζει και τις υλοποιεί. Στο τελευταίο μέρος γίνεται η εφαρμογή των μεθόδων εντοπισμού του «βέλτιστου» συνόλου επεξηγηματικών μεταβλητών σε ένα γραμμικό μοντέλο και γίνεται σύγκριση των μεθόδων που παρουσιάστηκαν στα πλαίσια της παρούσας διπλωματικής. Το δείγμα που χρησιμοποιήσαμε αποτελείται από πραγματικά δεδομένα που αφορούν τον όγκο πωλήσεων ενός προϊόντος (μεταβλητή απόκρισης) και μεταβλητές που υποθέτουμε ότι τις ερμηνεύουν (τις πωλήσεις αυτές). Το πλήθος των διαθέσιμων παρατηρήσεων είναι 288 εβδομάδες και 141 το πλήθος των μεταβλητών που θα χρησιμοποιηθούν. el
heal.abstract Linear regression analysis consists of a collection of techniques and methods used to investigate and explain the possible relationships between variables. However, one of the most important problems involved in balancing analysis is the selection of a smaller set of the original set of independent variables available each time in the particular linear model. By creating this subset, on the other hand, cost savings are made in the prediction of the dependent variable, and on the other it avoids a great loss in the efficiency of the prediction model. This paper presents a set of methods and criteria for selecting an "optimal" set of independent variables to predict a dependent variable through the explanatory variables of the particular linear model, with particular emphasis on new penalized methods. The first chapter is an introduction to the multiple linear model and the basic technique for estimating the coefficients of the linear model. Then, we present the method of "examining all possible models", all possible combinations of independent variables (All Possible Regressions), analyzing the various criteria proposed for identifying the appropriate model as well as a variation of this, the method of Best Subset Selection. Below, we present the widely known methods of selecting variables, the procedures in steps. These procedures create a sequence of linear models by inserting or removing an explanatory variable each time or combining both until they reach a point where, according to certain criteria we use, no other explanatory variables can be imported or extracted by the model that we examine. Then, we present a common phenomenon, when we have a large number of explanatory variables, the problem of multicollinearity. We conclude in the analysis of penalized or shrinking methods Ridge and LASSO, analyzing the theory that defines them and implements them. In the last part, we apply the methods of locating the optimal set of explanatory variables in a linear model and compare the methods presented in the present thesis. The sample we used consists of actual sales volume data for a product (response variable) and variables that we assume that they interpret (these sales). The number of available observations is 288 weeks and 141 the number of variables to be used. en
heal.advisorName Φουσκάκης, Δημήτριος el
heal.committeeMemberName Κοκκίνης, Βασίλειος el
heal.committeeMemberName Παπανικολάου, Βασίλης el
heal.committeeMemberName Φουσκάκης, Δημήτριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών el
heal.academicPublisherID ntua
heal.numberOfPages 141 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα