heal.abstract |
Στην παρούσα διπλωματική εργασία αναλύεται η στατιστική μέθοδος της δενδρικής παλινδρόμησης και της δενδρικής ταξινόμησης, καθώς και οι αντίστοιχες επεκτάσεις αυτών. Στην συνέχεια, εφαρμόζεται στο οικονομικό πρόβλημα της υπόθεσης του κύκλου ζωής (πρόβλημα παλινδρόμησης) και στο πρόβλημα της αναζήτησης εξωπλανητών μέσω του δορυφόρου Kepler της NASA πρόβλημα ταξινόμησης). Οι μέθοδοι της δενδρικής παλινδρόμησης και ταξινόμησης βασίζονται στον αλγόριθμο CART, ο οποίος κατασκευάζει δένδρα παλινδρόμησης και ταξινόμησης ή, πιο γενικά, δένδρα αποφάσεων. Τα τελευταία αποτελούν στατιστικά μοντέλα πρόβλεψης, όπου σε κάθε κλαδί του δένδρου πραγματοποιούνται αποφάσεις που αφορούν τα χαρακτηριστικά (επεξηγηματικές μεταβλητές) από τα οποία εξαρτάται η μεταβλητή απόκρισης που μας ενδιαφέρει να προβλέψουμε. Η κάθε απόφαση στηρίζεται σε μία συνθήκη τμήσης ή, αλλιώς, σε ένα κριτήριο διαμέρισης, το οποίο οφείλει να είναι το βέλτιστο σε κάθε τμήση, προκειμένου η τελική πρόβλεψη να είναι όσον το δυνατόν πιο ακριβής, συνοδευόμενη από ένα χαμηλό σφάλμα. Ως επεκτάσεις (βελτιώσεις) της μεθόδου της δενδρικής παλινδρόμησης (και ταξινόμησης) εισάγονται κάποιες τεχνικές συνόλου, όπως είναι η Ενσάκιση, τα Τυχαία Δάση και η Ενίσχυση, οι οποίες στοχεύουν σε μία ακόμα πιο εύστοχη πρόβλεψη και στην δυνατότητα αυτή να παραμένει σχετικά αναλλοίωτη σε τυχόν μεταβολές στα υπάρχοντα δεδομένα. Τέλος, με αφορμή δύο στατιστικά προβλήματα, η μέθοδος της δενδρικής παλινδρόμησης συγκρίνεται με την κλασική μέθοδο της πολλαπλής γραμμικής παλινδρόμησης, όπως και η μέθοδος της δενδρικής ταξινόμησης εξετάζεται σε σχέση με την γνωστή μέθοδο της λογιστικής παλινδρόμησης. Η διαδικασία αυτή αποσκοπεί στο να αποφανθούμε, τελικά, ποια μέθοδος αποδίδει καλύτερα ανάλογα με το πρόβλημα που διαθέτουμε και ποια είναι αυτή που παρέχει τις ορθότερες, χαμηλότερου σφάλματος προβλέψεις και εκτιμήσεις για την εκάστοτε μεταβλητή ενδιαφέροντος. |
el |