HEAL DSpace

Polynomial-time linear-swap regret minimization in imperfect-information sequential games

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πίπης, Χαρίλαος el
dc.contributor.author Pipis, Charilaos en
dc.date.accessioned 2023-12-18T09:10:33Z
dc.date.available 2023-12-18T09:10:33Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58453
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26149
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Άμεση μάθηση el
dc.subject Αλγοριθμική θεωρία παιγνίων el
dc.subject Παίγνια εκτεταμένης μορφής el
dc.subject Επιστήμη υπολογιστών el
dc.subject Συσχετισμένη ισορροπία el
dc.subject Online learning en
dc.subject Algorithmic game theory en
dc.subject Extensive-form games en
dc.subject Correlated equilibrium en
dc.subject Linear-swap regret en
dc.title Polynomial-time linear-swap regret minimization in imperfect-information sequential games en
heal.type bachelorThesis
heal.classification Computer Science en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-07-18
heal.abstract No-regret learners seek to minimize the difference between the loss they cumulated through the actions they played, and the loss they would have cumulated in hindsight had they consistently modified their behavior according to some strategy transformation function. The size of the set of transformations considered by the learner determines a natural notion of rationality. As the set of transformations each learner considers grows, the strategies played by the learners recover more complex game-theoretic equilibria, including correlated equilibria in normal-form games and extensive-form correlated equilibria in extensive-form games. At the extreme, a no-swap-regret agent is one that minimizes regret against the set of all functions from the set of strategies to itself. While it is known that the no-swap-regret condition can be attained efficiently in nonsequential (normal-form) games, understanding what is the strongest notion of rationality that can be attained efficiently in the worst case in sequential (extensive-form) games is a longstanding open problem. In this paper we provide a positive result, by showing that it is possible, in any sequential game, to retain polynomial-time (in the game tree size) iterations while achieving sublinear regret with respect to all linear transformations of the mixed strategy space, a notion called no-linear-swap regret. This notion of hindsight rationality is as strong as no-swap-regret in nonsequential games, and stronger than no-trigger-regret in sequential games—thereby proving the existence of a subset of extensive-form correlated equilibria robust to linear deviations, which we call linear-deviation correlated equilibria, that can be approached efficiently. en
heal.abstract Οι no-regret learners επιδιώκουν να ελαχιστοποιήσουν τη διαφορά μεταξύ της απώλειας που συσσώρευσαν μέσω των ενεργειών που παίζουν και της απώλειας που θα είχαν συσσωρεύσει υποθετικά εάν είχαν τροποποιήσει συνεπώς τη συμπεριφορά τους σύμφωνα με μια συνάρτηση μετασχηματισμού στρατηγικής. Το μέγεθος του συνόλου των μετασχηματισμών που λαμβάνονται υπόψη από τον learner καθορίζει μια φυσική έννοια ορθολογισμού (rationality). Καθώς το σύνολο των μετασχηματισμών που κάθε learner λαμβάνει υπόψη μεγαλώνει, οι στρατηγικές που παίζονται από τους learners ανακτούν όλο και πιο περίπλοκες παιγνιοθεωρητικές ισορροπίες, συμπεριλαμβανομένων των correlated equilibria σε παιχνίδια κανονικής μορφής (normal-form games) και extensive-form correlated equilibria σε παιχνίδια εκτεταμένης μορφής (extensive-form games). Στην ακραία περίπτωση, ένας no-swap-regret αλγόριθμος είναι αυτός που ελαχιστοποιεί την μετάνοια έναντι του συνόλου όλων των συναρτήσεων από το σύνολο των στρατηγικών προς το ίδιο το σύνολο των στρατηγικών. Ενώ είναι γνωστό ότι η συνθήκη για το no-swap-regret μπορεί να επιτευχθεί αποδοτικά σε μη ακολουθιακά (normal-form) παιχνίδια, η κατανόηση του ποια είναι η ισχυρότερη έννοια του rationality που μπορεί να επιτευχθεί αποδοτικά στη χειρότερη περίπτωση σε ακολουθιακά (extensive-form) παιχνίδια αποτελεί ένα ανεπίλυτο πρόβλημα. Σε αυτήν την εργασία παρέχουμε ένα θετικό αποτέλεσμα, δείχνοντας ότι είναι δυνατό, σε οποιοδήποτε ακολουθιακό παιχνίδι, χρησιμοποιώντας επαναλήψεις επαναλήψεις πολυωνυμικού χρόνου (σε σχέση με το μέγεθος του δένδρου του παιχνιδιού) να επιτύχουμε υπογραμμική μετάνοια ως προς όλους τους γραμμικούς μετασχηματισμούς του χώρου μικτών στρατηγικών, μια έννοια που ονομάζεται no-linear-swap regret. Αυτή η έννοια του εκ των υστέρων ορθολογισμού είναι τόσο ισχυρή όσο το no-swap-regret σε μη ακολουθιακά παιχνίδια και ισχυρότερη από την έννοια no-trigger-regret σε ακολουθιακά παιχνίδια -- αποδεικνύοντας έτσι την ύπαρξη ενός υποσυνόλου από εκτετατμένα correlated equilibria ανθεκτικά σε γραμμικές αποκλίσεις, τις οποίες ονομάζουμε linear-deviation correlated equilibria, που μπορούν να προσεγγιστούν αποδοτικά. el
heal.advisorName Φωτάκης, Δημήτριος el
heal.committeeMemberName Τζάμος, Χρήστος el
heal.committeeMemberName Παγουρτζής, Αριστείδης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Λογικής και Επιστήμης Υπολογισμών el
heal.academicPublisherID ntua
heal.numberOfPages 73 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα