heal.abstract |
Παρακολουθώντας έναν αγώνα καλαθοσφαίρισης θα δούμε πως οι ομάδες προσπαθούν μέσα από την καλή κυκλοφορία της μπάλας να οδηγηθούν στην καλύτερη δυνατή επιθετική
προσπάθεια. Αυτό σημαίνει πως επιθυμούν ο πιο εύστοχος παίκτης της ομάδας να σουτάρει υπό τις καλύτερες δυνατές συνθήκες, ώστε η ομάδα να σκοράρει και να φτάσει συνολικά στο
μεγαλύτερο αριθμό πόντων σε σύγκριση με την αντίπαλη ομάδα.
Στην παρούσα διπλωματική εργασία θα προσπαθήσουμε, κυρίως, να εξηγήσουμε ποιοι είναι αυτοί οι παράγοντες που
επηρεάζουν την ευστοχία και στη συνέχεια να προβλέψουμε την έκβαση της προσπάθειας ενός παίκτη πάνω σε ένα πραγματικό σύνολο δεδομένων.
Το πρώτο στοιχείο που μας βοηθάει να προβλέψουμε το αποτέλεσμα είναι το ποσοστό ευστοχίας του επιτιθέμενου παίκτη. Ωστόσο τα ποσοστά ευστοχίας ποικίλουν ανά ζώνη, οπότε
πρέπει καταρχήν να μπορούν να εντοπιστούν οι ζώνες αυτές. Επίσης, η ευστοχία εξαρτάται και από άλλους παράγοντες, όπως λ.χ. το πόσο κοντά ή μακρυά από τη μπασκέτα είναι ο
παίκτης κλπ. Για να μην καταλήξουμε σε ένα μοντέλο που στηρίζεται απλά στα ποσοστά ευστοχίας, θα θέλαμε να προσομοιώσουμε ένα πιο ρεαλιστικό μοντέλο ως προς την πρόβλεψη της ευστοχίας. Συνεπώς, στο σύνολο δεδομένων θα θέλαμε να υπάρχει και η πληροφορία για την απόσταση από τον κοντινότερο αμυντικό. Στην πορεία της ανάλυσης θα προκύψει
η σημασία της και ο βαθμός που επηρεάζει τον επιτιθέμενο. Τέλος, πέρα από την εξαγωγή γνώσης για την ανάλυση αμυντικών και επιθετικών χαρακτηριστικών, θα προσπαθήσουμε να
εξάγουμε μετρικές για την αποτελεσματικότητα της αμυντικής συμπεριφοράς των παικτών
Στο Κεφάλαιο 2 θα προσπαθήσουμε να χρησιμοποιήσουμε ήδη γνωστά μοντέλα, είτε θα τροποποιήσουμε κάποια, με σκοπό την εξαγωγή γνώσης από το σύνολο δεδομένων μετα χαρακτηριστικά από τις επιθετικές προσπάθειες. Αρχικά, θα παρουσιάσουμε το γνωστό μοντέλο των 4 παραγόντων του Dean Oliver.
Πρόκειται για ένα ιδιαίτερα ενδιαφέρον μοντέλο μιας και παρουσιάζει τους παράγοντες που περιγράφουν με μεγάλη ακρίβεια τον αριθμό των νικών που θα κάνει μια ομάδα κατά τη διάρκεια μιας σεζόν, με τις επεξηγηματικές μεταβλητές να έχουν φυσική σημασία. Στη συνέχεια, θα παρουσιάσουμε ένα τρόπο
βελτιστοποίησης με τον οποίο θα εκτιμήσουμε την επιθετική αποτελεσματικότητα, χωρίς να επηρεάζονται τα αποτελέσματα από το πλεονέκτημα έδρας. Θα δείξουμε πως τα υπόλοιπα
της διαδικασίας από τη βελτιστοποίηση ακολουθούν κανονική κατανομή. Τέλος, θα αναλύσουμε τη βαθμολογία Elo, η οποία αποτελεί μια δυναμική διαδικασία αποτύπωσης της δυναμικότητας των ομάδων και θα μας βοηθήσει στη δυναμική πρόβλεψη του νικητή. Θα αναλυθούν διεξοδικά όλες οι παράγοντες που χρησιμοποιούνται στη βαθμολογία Elo καθώς
και η χρησιμότητα τους.
Τα εργαλεία που θα χρησιμοποιηθούν περιγράφονται στο Κεφάλαιο 3 και εντάσσονται στον κλάδο της στατιστικής και της μηχανικής μάθησης. Για την επιλογή των μεταβλητών
χρησιμοποιούνται οι τεχνικές παλινδρόμησης Lasso και Ridge. Πρόκειται για μεθόδους γραμμικής παλινδρόμησης στις οποίες προστίθενται όροι ομαλοποίησης και οι
οποίες χρησιμοποιούνται σημαντικά σε ερευνητικό επίπεδο. Η προσθήκη όρων ομαλοποίησης στη μηχανική μάθηση δεν περιορίζεται μόνο στην επιλογή μεταβλητών αλλά μπορεί να
βοηθήσει στη βελτίωση όλων των μεθόδων μάθησης, μειώνοντας το σφάλμα γενίκευσης.
Σε θεωρητικό και πρακτικό επίπεδο, θα χρησιμοποιήσουμε τις πιο κλασικές μεθόδους και
θα αναλύσουμε μια από τις πιο σύγχρονες και ευρέως χρησιμοποιούμενες τεχνικές μηχανικής
μάθησης, τη μέθοδο extreme gradient boosting ή XGBoost. Πρόκειται για μια μέθοδο ταξινόμησης που στηρίζεται στη μέθοδο συλλογικής (ensemble) εκπαίδευσης δέντρων,
σε συνδυασμό με μεθόδους ενίσχυσης της κλίσης (gradient boosting). Πιο συγκεκρι-
μένα, εκπαιδεύονται συνεχόμενα k δέντρα απόφασης, όπου σε κάθε επανάληψη μειώνεται το
συνολικό σφάλμα και η τελική απόφαση λαμβάνεται από όλα τα k εκπαιδευμένα δέντρα. Η
μέθοδος δεν εξαρτάται από τη συνάρτηση ωφέλειας που καλείται να βελτιστοποιήσει και εμ-
φανίζει καλά αποτελέσματα στα προβλήματα που πρόκειται να τη χρησιμοποιήσουμε. Ήδη
στην πλατφόρμα του Kaggle, η οποία φιλοξενεί διαγωνισμούς μηχανικής μάθησης καθώς
και συλλογές δεδομένων, αποτελεί τη μεθοδολογία που δίνει τα καλύτερα αποτελέσματα στα
προβλήματα που εξετάζουμε στην παρούσα διπλωματική εργασία, είτε όπως την περιγράφε-
ται από τους συγγραφείς στο αρχικό paper ή με κάποιες τροποποιήσεις.
Το κυριότερο ζήτημα που εγείρεται κατά τη μελέτη της πρόβλεψης ευστοχίας είναι κατά
πόσο επηρεάζεται η έκβαση του αποτελέσματος από τις προηγούμενες εκβάσεις των προ-
σπαθειών του παίκτη. Στη βιβλιογραφία, αυτό το ζήτημα είναι γνωστό και ως the hot hand
hypothesis. Αρχικά, θα χρησιμοποιήσουμε ένα πολύ γνωστό στατιστικό έλεγχο,
τον έλεγχο Wald–Wolfowitz για σερί στα αποτελέσματα, ώστε να αποκτήσουμε
μια διαίσθηση για το βαθμό στον οποίο επηρεάζει το παρελθόν την πιθανότητα ευστοχίας.
Τέλος, θα παρουσιαστούν όλες οι μέθοδοι που χρησιμοποιήθηκαν καθώς και το εύρος των
υπερπαραμέτρων που εξετάστηκαν προς βέλτιστη ακρίβεια στο αποτέλεσμα των εκάστοτε
ταξινομητών. Για να εξετάσουμε την αποτελεσματικότητα της επίθεσης χρησιμοποιώντας
τα αποτελέσματα από το παρελθόν, θα χρησιμοποιήσουμε τα αναδρομικά νευρωνικά δίκτυα
και θα κάνουμε προτάσεις για βελτίωση. Παράλληλα, έχοντας αναλύσει σε βάθος το σύνολο
δεδομένων μπορούμε να οδηγηθούμε στη δυναμική πρόβλεψη νικητή. Δυναμική, υπό την
έννοια πως για τη χρονική στιγμή που θέλουμε να προβλέψουμε το νικητή σε ένα ζευγάρι
1 https://www.kaggle.com/
19
αντίπαλων ομάδων θα χρησιμοποιήσουμε μόνο τη στατιστική τους απόδοση στα προηγού-
μενα παιχνίδια |
el |