dc.contributor.author |
Σινανάι, Έραλντ
|
el |
dc.contributor.author |
Sinanai, Eralnt
|
en |
dc.date.accessioned |
2025-01-24T07:47:54Z |
|
dc.date.available |
2025-01-24T07:47:54Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/60941 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.28637 |
|
dc.rights |
Default License |
|
dc.subject |
Περιορισμένη Ανάδραση |
el |
dc.subject |
Διαδοχική Λήψη Αποφάσεων Υπό Αβεβαιότητα |
el |
dc.subject |
Μετάνοια |
el |
dc.subject |
Ανταγωνιστική Αλλοίωση |
el |
dc.subject |
Εκτίμηση Διασποράς |
el |
dc.subject |
Bandit Feedback |
en |
dc.subject |
Sequential Decision Making Under Uncertainty |
en |
dc.subject |
Regret |
en |
dc.subject |
Adversarial Corruptions |
en |
dc.subject |
Variance Estimates |
en |
dc.title |
Αξιοποίηση εκτιμήσεων διασποράς σε στοχαστικά MAB προβλήματα με αλλοιωμένες ανταμοιβές |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Θεωρητική Πληροφορική |
el |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
campus |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2024-09-24 |
|
heal.abstract |
Στην παρούσα διπλωματική εργασία μελετάμε το πρόβλημα των Multi Armed Bandits (MAB), το οποίο αφορά την άμεση μάθηση σε περιβάλλοντα περιορισμένης ανάδρασης. Το πρώτο μέρος της διπλωματικής αφορά τη στοχαστική μορφή του προβλήματος. Διάφοροι αλγόριθμοι έχουν προταθεί και μελετηθεί για αυτό το πρόβλημα, μερικοί πιο απλοί και ’μη προσαρμοστικοί’, ενώ άλλοι πιο ισχυροί, αλλά πιο περίτεχνοι. Μελετάμε τους σημαντικό τερους από αυτούς και αναλύουμε την απόδοση τους μέσω της μετρικής της ’μετάνοιας’ (regret), αποδεικνύοντας εγγύησεις με υψηλή πιθανότητα (high probability regret guarantees). Ακόμα, μελετάμε τον αλγόριθμο UCBV που εκτιμάει πέρα από τη μέση τιμή και την διασπορά κάθε ενέργειας. Αυτό οδηγεί σε βελτιωμένη εγγύηση όταν οι ενέργειες είναι πιο στατικές, παράλληλα εξασφαλίζοντας την εγγύηση των σχεδόν βέλτιστων αλγορίθμων που διατηρούν μόνο εκτιμήσεις μέσης τιμής. Ταυτόχρονα, αποδεικνύουμε αυτό το αποτέλεσμα με μια σημαντικά απλούστερη ανάλυση από αυτή στην αρχική δημοσίευση.
Στο δεύτερο μέρος μελετάμε το πρόβλημα των ανταγωνιστικών MAB (Adversarial MAB), όπου δεν κάνουμε καμία στατιστική υπόθεση. Αρχικά μελετάμε το πρόβλημα του Online Learning για να κατανοήσουμε στην πορεία τον ευρέως γνωστό αλγόριθμο Exp3. Στη συνέχεια εστιάζουμε στο πρόβλημα των Στοχαστικών MAB υπό ανταγωνιστικές αλλοιώσεις (Adversarially Corrupted MABs). Σε αυτό το πρόβλημα το υποκείμενο περιβάλλον είναι στοχαστικό, αλλά κάποιος ανταγωνιστής μπορεί να αλλοιώσει τις ανταμοιβές πριν παρατη- ρηθούν. O πρώτος αλγόριθμος που μελετάμε σε αυτό το πρόβλημα εξασφαλίζει σχεδόν βέλτιστη εγγυήση μετάνοιας στο αμιγώς στοχαστικό περιβάλλον η οποία μεταβάλλεται ομαλά με την αύξηση της σωρευτικής αλλοίωσης. Ακόμη, μελετάμε τον αλγόριθμο BARBAR ο οποίος επιτυγχάνει σημαντικά καλύτερη εγγύηση. Τέλος, βασισμένοι σε αυτόν παρουσιάζουμε έναν αλγόριθμο ο οποίος χρησιμοποιεί επιπλέον εκτιμήσεις διασποράς των ανταμοιβών, σε μια προσπάθεια να επιτύγχουμε μετάνοια η οποία μεταβάλλεται ομαλά από αυτό που εξασφαλίζει ο UCBV σε στοχαστικό περιβάλλον. Πράγματι, αποδεικνύουμε ότι ο αλγόριθμος μας εξασφαλίζει σχεδόν όμοια εγγύηση μετάνοιας σε αμιγώς στοχαστικό περιβάλλον, αλλά ένα παράδειγμα οικογενειών στιγμιοτύπων δείχνει ότι ο αλγόριθμος στην τωρινή μορφή του δεν μπορεί να επιτύχει τα επιθυμητά αποτελέσματα. |
el |
heal.advisorName |
Φωτάκης, Δημήτρης |
el |
heal.committeeMemberName |
Φωτάκης, Δημήτρης |
el |
heal.committeeMemberName |
Παγουρτζής, Αριστείδης |
el |
heal.committeeMemberName |
Λεονάρδος, Νικόλαος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
93 σ. |
el |
heal.fullTextAvailability |
false |
|
heal.fullTextAvailability |
false |
|