Πρόβλεψη ευστοχίας καλαθοσφαιριστών με
χρήση τεχνικών Μηχανικής Μάθησης

Πετρόγιαννος, Δημήτριος; Petrogiannos, Dimitrios

dc.contributor.author	Πετρόγιαννος, Δημήτριος	el
dc.contributor.author	Petrogiannos, Dimitrios	en
dc.date.accessioned	2020-12-02T12:38:59Z
dc.date.available	2020-12-02T12:38:59Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52176
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.19874
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Επιστήμη Δεδομένων και Μηχανική Μάθηση”	el
dc.rights	Default License
dc.subject	Αναλυτική Αθλητικών Δεδομένων	el
dc.subject	Παλινδρόμηση	el
dc.subject	Δένδρα Απόφασης	el
dc.subject	Τυχαία Δάση	el
dc.subject	Αναδρομικά Νευρωνικά Δίκτυα	el
dc.subject	Game Analytics	en
dc.subject	Regression	en
dc.subject	Decision Trees	el
dc.subject	Random Forests	en
dc.subject	Recurrent Neural Networks	en
dc.title	Πρόβλεψη ευστοχίας καλαθοσφαιριστών με χρήση τεχνικών Μηχανικής Μάθησης	el
heal.type	masterThesis
heal.classification	Μηχανική Μάθηση	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-07-15
heal.abstract	Παρακολουθώντας έναν αγώνα καλαθοσφαίρισης θα δούμε πως οι ομάδες προσπαθούν μέσα από την καλή κυκλοφορία της μπάλας να οδηγηθούν στην καλύτερη δυνατή επιθετική προσπάθεια. Αυτό σημαίνει πως επιθυμούν ο πιο εύστοχος παίκτης της ομάδας να σουτάρει υπό τις καλύτερες δυνατές συνθήκες, ώστε η ομάδα να σκοράρει και να φτάσει συνολικά στο μεγαλύτερο αριθμό πόντων σε σύγκριση με την αντίπαλη ομάδα. Στην παρούσα διπλωματική εργασία θα προσπαθήσουμε, κυρίως, να εξηγήσουμε ποιοι είναι αυτοί οι παράγοντες που επηρεάζουν την ευστοχία και στη συνέχεια να προβλέψουμε την έκβαση της προσπάθειας ενός παίκτη πάνω σε ένα πραγματικό σύνολο δεδομένων. Το πρώτο στοιχείο που μας βοηθάει να προβλέψουμε το αποτέλεσμα είναι το ποσοστό ευστοχίας του επιτιθέμενου παίκτη. Ωστόσο τα ποσοστά ευστοχίας ποικίλουν ανά ζώνη, οπότε πρέπει καταρχήν να μπορούν να εντοπιστούν οι ζώνες αυτές. Επίσης, η ευστοχία εξαρτάται και από άλλους παράγοντες, όπως λ.χ. το πόσο κοντά ή μακρυά από τη μπασκέτα είναι ο παίκτης κλπ. Για να μην καταλήξουμε σε ένα μοντέλο που στηρίζεται απλά στα ποσοστά ευστοχίας, θα θέλαμε να προσομοιώσουμε ένα πιο ρεαλιστικό μοντέλο ως προς την πρόβλεψη της ευστοχίας. Συνεπώς, στο σύνολο δεδομένων θα θέλαμε να υπάρχει και η πληροφορία για την απόσταση από τον κοντινότερο αμυντικό. Στην πορεία της ανάλυσης θα προκύψει η σημασία της και ο βαθμός που επηρεάζει τον επιτιθέμενο. Τέλος, πέρα από την εξαγωγή γνώσης για την ανάλυση αμυντικών και επιθετικών χαρακτηριστικών, θα προσπαθήσουμε να εξάγουμε μετρικές για την αποτελεσματικότητα της αμυντικής συμπεριφοράς των παικτών Στο Κεφάλαιο 2 θα προσπαθήσουμε να χρησιμοποιήσουμε ήδη γνωστά μοντέλα, είτε θα τροποποιήσουμε κάποια, με σκοπό την εξαγωγή γνώσης από το σύνολο δεδομένων μετα χαρακτηριστικά από τις επιθετικές προσπάθειες. Αρχικά, θα παρουσιάσουμε το γνωστό μοντέλο των 4 παραγόντων του Dean Oliver. Πρόκειται για ένα ιδιαίτερα ενδιαφέρον μοντέλο μιας και παρουσιάζει τους παράγοντες που περιγράφουν με μεγάλη ακρίβεια τον αριθμό των νικών που θα κάνει μια ομάδα κατά τη διάρκεια μιας σεζόν, με τις επεξηγηματικές μεταβλητές να έχουν φυσική σημασία. Στη συνέχεια, θα παρουσιάσουμε ένα τρόπο βελτιστοποίησης με τον οποίο θα εκτιμήσουμε την επιθετική αποτελεσματικότητα, χωρίς να επηρεάζονται τα αποτελέσματα από το πλεονέκτημα έδρας. Θα δείξουμε πως τα υπόλοιπα της διαδικασίας από τη βελτιστοποίηση ακολουθούν κανονική κατανομή. Τέλος, θα αναλύσουμε τη βαθμολογία Elo, η οποία αποτελεί μια δυναμική διαδικασία αποτύπωσης της δυναμικότητας των ομάδων και θα μας βοηθήσει στη δυναμική πρόβλεψη του νικητή. Θα αναλυθούν διεξοδικά όλες οι παράγοντες που χρησιμοποιούνται στη βαθμολογία Elo καθώς και η χρησιμότητα τους. Τα εργαλεία που θα χρησιμοποιηθούν περιγράφονται στο Κεφάλαιο 3 και εντάσσονται στον κλάδο της στατιστικής και της μηχανικής μάθησης. Για την επιλογή των μεταβλητών χρησιμοποιούνται οι τεχνικές παλινδρόμησης Lasso και Ridge. Πρόκειται για μεθόδους γραμμικής παλινδρόμησης στις οποίες προστίθενται όροι ομαλοποίησης και οι οποίες χρησιμοποιούνται σημαντικά σε ερευνητικό επίπεδο. Η προσθήκη όρων ομαλοποίησης στη μηχανική μάθηση δεν περιορίζεται μόνο στην επιλογή μεταβλητών αλλά μπορεί να βοηθήσει στη βελτίωση όλων των μεθόδων μάθησης, μειώνοντας το σφάλμα γενίκευσης. Σε θεωρητικό και πρακτικό επίπεδο, θα χρησιμοποιήσουμε τις πιο κλασικές μεθόδους και θα αναλύσουμε μια από τις πιο σύγχρονες και ευρέως χρησιμοποιούμενες τεχνικές μηχανικής μάθησης, τη μέθοδο extreme gradient boosting ή XGBoost. Πρόκειται για μια μέθοδο ταξινόμησης που στηρίζεται στη μέθοδο συλλογικής (ensemble) εκπαίδευσης δέντρων, σε συνδυασμό με μεθόδους ενίσχυσης της κλίσης (gradient boosting). Πιο συγκεκρι- μένα, εκπαιδεύονται συνεχόμενα k δέντρα απόφασης, όπου σε κάθε επανάληψη μειώνεται το συνολικό σφάλμα και η τελική απόφαση λαμβάνεται από όλα τα k εκπαιδευμένα δέντρα. Η μέθοδος δεν εξαρτάται από τη συνάρτηση ωφέλειας που καλείται να βελτιστοποιήσει και εμ- φανίζει καλά αποτελέσματα στα προβλήματα που πρόκειται να τη χρησιμοποιήσουμε. Ήδη στην πλατφόρμα του Kaggle, η οποία φιλοξενεί διαγωνισμούς μηχανικής μάθησης καθώς και συλλογές δεδομένων, αποτελεί τη μεθοδολογία που δίνει τα καλύτερα αποτελέσματα στα προβλήματα που εξετάζουμε στην παρούσα διπλωματική εργασία, είτε όπως την περιγράφε- ται από τους συγγραφείς στο αρχικό paper ή με κάποιες τροποποιήσεις. Το κυριότερο ζήτημα που εγείρεται κατά τη μελέτη της πρόβλεψης ευστοχίας είναι κατά πόσο επηρεάζεται η έκβαση του αποτελέσματος από τις προηγούμενες εκβάσεις των προ- σπαθειών του παίκτη. Στη βιβλιογραφία, αυτό το ζήτημα είναι γνωστό και ως the hot hand hypothesis. Αρχικά, θα χρησιμοποιήσουμε ένα πολύ γνωστό στατιστικό έλεγχο, τον έλεγχο Wald–Wolfowitz για σερί στα αποτελέσματα, ώστε να αποκτήσουμε μια διαίσθηση για το βαθμό στον οποίο επηρεάζει το παρελθόν την πιθανότητα ευστοχίας. Τέλος, θα παρουσιαστούν όλες οι μέθοδοι που χρησιμοποιήθηκαν καθώς και το εύρος των υπερπαραμέτρων που εξετάστηκαν προς βέλτιστη ακρίβεια στο αποτέλεσμα των εκάστοτε ταξινομητών. Για να εξετάσουμε την αποτελεσματικότητα της επίθεσης χρησιμοποιώντας τα αποτελέσματα από το παρελθόν, θα χρησιμοποιήσουμε τα αναδρομικά νευρωνικά δίκτυα και θα κάνουμε προτάσεις για βελτίωση. Παράλληλα, έχοντας αναλύσει σε βάθος το σύνολο δεδομένων μπορούμε να οδηγηθούμε στη δυναμική πρόβλεψη νικητή. Δυναμική, υπό την έννοια πως για τη χρονική στιγμή που θέλουμε να προβλέψουμε το νικητή σε ένα ζευγάρι 1 https://www.kaggle.com/ 19 αντίπαλων ομάδων θα χρησιμοποιήσουμε μόνο τη στατιστική τους απόδοση στα προηγού- μενα παιχνίδια	el
heal.advisorName	Σταφυλοπάτης, Ανδρέας-Γεώργιος
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος
heal.committeeMemberName	Στάμου, Γεώργιος
heal.committeeMemberName	Αλεξανδρίδης, Γεώργιος
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	85
heal.fullTextAvailability	false