HEAL DSpace

Αξιοποίηση εκτιμήσεων διασποράς σε στοχαστικά MAB προβλήματα με αλλοιωμένες ανταμοιβές

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σινανάι, Έραλντ el
dc.contributor.author Sinanai, Eralnt en
dc.date.accessioned 2025-01-24T07:47:54Z
dc.date.available 2025-01-24T07:47:54Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60941
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28637
dc.rights Default License
dc.subject Περιορισμένη Ανάδραση el
dc.subject Διαδοχική Λήψη Αποφάσεων Υπό Αβεβαιότητα el
dc.subject Μετάνοια el
dc.subject Ανταγωνιστική Αλλοίωση el
dc.subject Εκτίμηση Διασποράς el
dc.subject Bandit Feedback en
dc.subject Sequential Decision Making Under Uncertainty en
dc.subject Regret en
dc.subject Adversarial Corruptions en
dc.subject Variance Estimates en
dc.title Αξιοποίηση εκτιμήσεων διασποράς σε στοχαστικά MAB προβλήματα με αλλοιωμένες ανταμοιβές el
heal.type bachelorThesis
heal.classification Θεωρητική Πληροφορική el
heal.language el
heal.language en
heal.access campus
heal.recordProvider ntua el
heal.publicationDate 2024-09-24
heal.abstract Στην παρούσα διπλωματική εργασία μελετάμε το πρόβλημα των Multi Armed Bandits (MAB), το οποίο αφορά την άμεση μάθηση σε περιβάλλοντα περιορισμένης ανάδρασης. Το πρώτο μέρος της διπλωματικής αφορά τη στοχαστική μορφή του προβλήματος. Διάφοροι αλγόριθμοι έχουν προταθεί και μελετηθεί για αυτό το πρόβλημα, μερικοί πιο απλοί και ’μη προσαρμοστικοί’, ενώ άλλοι πιο ισχυροί, αλλά πιο περίτεχνοι. Μελετάμε τους σημαντικό τερους από αυτούς και αναλύουμε την απόδοση τους μέσω της μετρικής της ’μετάνοιας’ (regret), αποδεικνύοντας εγγύησεις με υψηλή πιθανότητα (high probability regret guarantees). Ακόμα, μελετάμε τον αλγόριθμο UCBV που εκτιμάει πέρα από τη μέση τιμή και την διασπορά κάθε ενέργειας. Αυτό οδηγεί σε βελτιωμένη εγγύηση όταν οι ενέργειες είναι πιο στατικές, παράλληλα εξασφαλίζοντας την εγγύηση των σχεδόν βέλτιστων αλγορίθμων που διατηρούν μόνο εκτιμήσεις μέσης τιμής. Ταυτόχρονα, αποδεικνύουμε αυτό το αποτέλεσμα με μια σημαντικά απλούστερη ανάλυση από αυτή στην αρχική δημοσίευση. Στο δεύτερο μέρος μελετάμε το πρόβλημα των ανταγωνιστικών MAB (Adversarial MAB), όπου δεν κάνουμε καμία στατιστική υπόθεση. Αρχικά μελετάμε το πρόβλημα του Online Learning για να κατανοήσουμε στην πορεία τον ευρέως γνωστό αλγόριθμο Exp3. Στη συνέχεια εστιάζουμε στο πρόβλημα των Στοχαστικών MAB υπό ανταγωνιστικές αλλοιώσεις (Adversarially Corrupted MABs). Σε αυτό το πρόβλημα το υποκείμενο περιβάλλον είναι στοχαστικό, αλλά κάποιος ανταγωνιστής μπορεί να αλλοιώσει τις ανταμοιβές πριν παρατη- ρηθούν. O πρώτος αλγόριθμος που μελετάμε σε αυτό το πρόβλημα εξασφαλίζει σχεδόν βέλτιστη εγγυήση μετάνοιας στο αμιγώς στοχαστικό περιβάλλον η οποία μεταβάλλεται ομαλά με την αύξηση της σωρευτικής αλλοίωσης. Ακόμη, μελετάμε τον αλγόριθμο BARBAR ο οποίος επιτυγχάνει σημαντικά καλύτερη εγγύηση. Τέλος, βασισμένοι σε αυτόν παρουσιάζουμε έναν αλγόριθμο ο οποίος χρησιμοποιεί επιπλέον εκτιμήσεις διασποράς των ανταμοιβών, σε μια προσπάθεια να επιτύγχουμε μετάνοια η οποία μεταβάλλεται ομαλά από αυτό που εξασφαλίζει ο UCBV σε στοχαστικό περιβάλλον. Πράγματι, αποδεικνύουμε ότι ο αλγόριθμος μας εξασφαλίζει σχεδόν όμοια εγγύηση μετάνοιας σε αμιγώς στοχαστικό περιβάλλον, αλλά ένα παράδειγμα οικογενειών στιγμιοτύπων δείχνει ότι ο αλγόριθμος στην τωρινή μορφή του δεν μπορεί να επιτύχει τα επιθυμητά αποτελέσματα. el
heal.advisorName Φωτάκης, Δημήτρης el
heal.committeeMemberName Φωτάκης, Δημήτρης el
heal.committeeMemberName Παγουρτζής, Αριστείδης el
heal.committeeMemberName Λεονάρδος, Νικόλαος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 93 σ. el
heal.fullTextAvailability false
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής