Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η ανάλυση των παραγόντων που επηρεάζουν τη στατιστική ακρίβεια πρόβλεψης των τεχνικών προέκτασης. Η μελέτη εστιάζει στα δεδομένα συνεχούς φύσης, τα οποία ορίζονται ως μία συνάρτηση των τεσσάρων βασικών συνιστωσών τους, που είναι η εποχιακότητα, η τάση, ο κύκλος και η τυχαιότητα.
Η βιβλιογραφική έρευνα που εκπονήθηκε στα πλαίσια της διατριβής είχε ως στόχο την πλήρη κατανόηση των χρονοσειρών καθώς και της ανάλυσης αυτών. Μελετήθηκαν τα κύρια ποιοτικά χαρακτηριστικά, και έγινε καταγραφή μεθόδων αποσύνθεσης, στατιστικής ανάλυσης και μετασχηματισμού των αρχικών δεδομένων. Κατόπιν, μελετήθηκε σε βάθος η βιβλιογραφία που αφορά καθιερωμένες και σύγχρονες μεθοδολογίες πρόβλεψης, τόσο σε επίπεδο χρονοσειρών συνεχούς ζήτησης, όσο και σε επίπεδο δεδομένων διακοπτόμενης φύσης. Μελετήθηκε και αναπτύχθηκε πλήρης βιβλιογραφία σχετικά με τους παράγοντες που επηρεάζουν τις προβλέψεις, διακρίνοντάς τρεις βασικές κατηγορίες: στατιστικούς, κριτικούς και ψυχολογικούς.
Η έρευνα επί του μετασχηματισμού οδήγησε στην περιγραφή και παρουσίαση της καινοτόμας μεθόδου προβλέψεων ADIDA, που πρόκειται για μια τεχνική συνάθροισης των δεδομένων σε σειρές χαμηλότερης συχνότητας με στόχο τη μείωση της παρουσίας μηδενικών τιμών. Η συνάθροιση των δεδομένων ακολουθείται από πρόβλεψη στο συναθροισμένο επίπεδο και, τελικά, διαχωρισμό των συναθροισμένων προβλέψεων σε προβλέψεις υψηλότερης συχνότητας. Η φιλοσοφία αυτή εφαρμόστηκε σε σύνολα πραγματικών δεδομένων συνεχούς και διακοπτόμενης φύσης και επιδεικνύει πολύ ελπιδοφόρα αποτελέσματα, λειτουργώντας ως ένας μηχανισμός «αυτό-βελτίωσης» των τεχνικών προέκτασης.
Η μελέτη, ανάλυση και εξέταση των παραγόντων που επηρεάζουν τις στατιστικές προβλέψεις επιτεύχθηκε μέσω μιας εκτενούς πειραματικής διαδικασίας προσομοίωσης. Η διατριβή περιγράφει αναλυτικά την επιλογή των συνιστωσών και των επιπέδων αυτών αλλά και τη διαδικασία κατασκευής ενός πολύ μεγάλου τεχνητού συνόλου δεδομένων (σχεδόν 80 εκατομμύρια σειρές), οι οποίες και αποτέλεσαν και τη βάση για το κύριο μέρος της έρευνας της παρούσας διατριβής. Η στατιστική ανάλυση μέσω πολλαπλής παλινδρόμησης καθιστά σαφές το ύψος της επιρροής των εξεταζόμενων παραγόντων. Τέλος, προτείνεται ένα πλαίσιο επιλογής μεθόδου βάσει της ανάλυσης των χαρακτηριστικών της χρονοσειράς.
The current doctoral thesis’ main objective is the analysis of factors affecting statistical accuracy of extrapolation techniques. The study focuses on fast demand time series, which can be described as a function of four basic components: seasonality, trend, cycle and randomness.
The literature review conducted in this thesis was to understand every aspect of time series analysis. We studied the main qualitative characteristics and we recorded widely used methods regarding decomposition, statistical analysis and transformation of the original data. Furthermore, we studied in depth the literature on well-established and modern forecasting methodologies, regarding on both fast and intermittent demand natures. Lastly, we studied and developed comprehensive literature review on factors affecting forecasts and forecasting procedure, by distinguishing three main categories: statistical, judgmental and psychological factors.
The research regarding transformation of the original data led to the definition of a unique forecasting methodology, the ADIDA framework, which is an aggregation-disaggregation technique of gathering data in lower frequency ranges, so to reduce dramatically the presence of zero values. The aggregation of data is followed by extrapolation at the aggregated level and, finally, separation of the aggregated point forecast at forecasts of higher frequency. This philosophy was applied to real data sets of fast as well as intermittent demand nature, where the results were very promising, serving as a “self-improvement” mechanism for forecasting methods.
The analysis and examination of factors affecting the statistical predictions was achieved through an extensive experimental simulation process. The thesis describes the selection of the levels for each examined factor and the generation procedure of an extremely large simulated data set (including about 80 million series), which was the basis for the main part of the current research. The statistical analysis by multiple regression functions verifies the main hypothesis and illustrates the level of influence of the examined factors. Finally, we propose a method selection framework, based on the analysis of series characteristics and the results of this study.