Polynomial-time linear-swap regret minimization in imperfect-information sequential games

Πίπης, Χαρίλαος; Pipis, Charilaos

dc.contributor.author	Πίπης, Χαρίλαος	el
dc.contributor.author	Pipis, Charilaos	en
dc.date.accessioned	2023-12-18T09:10:33Z
dc.date.available	2023-12-18T09:10:33Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58453
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.26149
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	Άμεση μάθηση	el
dc.subject	Αλγοριθμική θεωρία παιγνίων	el
dc.subject	Παίγνια εκτεταμένης μορφής	el
dc.subject	Επιστήμη υπολογιστών	el
dc.subject	Συσχετισμένη ισορροπία	el
dc.subject	Online learning	en
dc.subject	Algorithmic game theory	en
dc.subject	Extensive-form games	en
dc.subject	Correlated equilibrium	en
dc.subject	Linear-swap regret	en
dc.title	Polynomial-time linear-swap regret minimization in imperfect-information sequential games	en
heal.type	bachelorThesis
heal.classification	Computer Science	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-07-18
heal.abstract	No-regret learners seek to minimize the difference between the loss they cumulated through the actions they played, and the loss they would have cumulated in hindsight had they consistently modified their behavior according to some strategy transformation function. The size of the set of transformations considered by the learner determines a natural notion of rationality. As the set of transformations each learner considers grows, the strategies played by the learners recover more complex game-theoretic equilibria, including correlated equilibria in normal-form games and extensive-form correlated equilibria in extensive-form games. At the extreme, a no-swap-regret agent is one that minimizes regret against the set of all functions from the set of strategies to itself. While it is known that the no-swap-regret condition can be attained efficiently in nonsequential (normal-form) games, understanding what is the strongest notion of rationality that can be attained efficiently in the worst case in sequential (extensive-form) games is a longstanding open problem. In this paper we provide a positive result, by showing that it is possible, in any sequential game, to retain polynomial-time (in the game tree size) iterations while achieving sublinear regret with respect to all linear transformations of the mixed strategy space, a notion called no-linear-swap regret. This notion of hindsight rationality is as strong as no-swap-regret in nonsequential games, and stronger than no-trigger-regret in sequential games—thereby proving the existence of a subset of extensive-form correlated equilibria robust to linear deviations, which we call linear-deviation correlated equilibria, that can be approached efficiently.	en
heal.abstract	Οι no-regret learners επιδιώκουν να ελαχιστοποιήσουν τη διαφορά μεταξύ της απώλειας που συσσώρευσαν μέσω των ενεργειών που παίζουν και της απώλειας που θα είχαν συσσωρεύσει υποθετικά εάν είχαν τροποποιήσει συνεπώς τη συμπεριφορά τους σύμφωνα με μια συνάρτηση μετασχηματισμού στρατηγικής. Το μέγεθος του συνόλου των μετασχηματισμών που λαμβάνονται υπόψη από τον learner καθορίζει μια φυσική έννοια ορθολογισμού (rationality). Καθώς το σύνολο των μετασχηματισμών που κάθε learner λαμβάνει υπόψη μεγαλώνει, οι στρατηγικές που παίζονται από τους learners ανακτούν όλο και πιο περίπλοκες παιγνιοθεωρητικές ισορροπίες, συμπεριλαμβανομένων των correlated equilibria σε παιχνίδια κανονικής μορφής (normal-form games) και extensive-form correlated equilibria σε παιχνίδια εκτεταμένης μορφής (extensive-form games). Στην ακραία περίπτωση, ένας no-swap-regret αλγόριθμος είναι αυτός που ελαχιστοποιεί την μετάνοια έναντι του συνόλου όλων των συναρτήσεων από το σύνολο των στρατηγικών προς το ίδιο το σύνολο των στρατηγικών. Ενώ είναι γνωστό ότι η συνθήκη για το no-swap-regret μπορεί να επιτευχθεί αποδοτικά σε μη ακολουθιακά (normal-form) παιχνίδια, η κατανόηση του ποια είναι η ισχυρότερη έννοια του rationality που μπορεί να επιτευχθεί αποδοτικά στη χειρότερη περίπτωση σε ακολουθιακά (extensive-form) παιχνίδια αποτελεί ένα ανεπίλυτο πρόβλημα. Σε αυτήν την εργασία παρέχουμε ένα θετικό αποτέλεσμα, δείχνοντας ότι είναι δυνατό, σε οποιοδήποτε ακολουθιακό παιχνίδι, χρησιμοποιώντας επαναλήψεις επαναλήψεις πολυωνυμικού χρόνου (σε σχέση με το μέγεθος του δένδρου του παιχνιδιού) να επιτύχουμε υπογραμμική μετάνοια ως προς όλους τους γραμμικούς μετασχηματισμούς του χώρου μικτών στρατηγικών, μια έννοια που ονομάζεται no-linear-swap regret. Αυτή η έννοια του εκ των υστέρων ορθολογισμού είναι τόσο ισχυρή όσο το no-swap-regret σε μη ακολουθιακά παιχνίδια και ισχυρότερη από την έννοια no-trigger-regret σε ακολουθιακά παιχνίδια -- αποδεικνύοντας έτσι την ύπαρξη ενός υποσυνόλου από εκτετατμένα correlated equilibria ανθεκτικά σε γραμμικές αποκλίσεις, τις οποίες ονομάζουμε linear-deviation correlated equilibria, που μπορούν να προσεγγιστούν αποδοτικά.	el
heal.advisorName	Φωτάκης, Δημήτριος	el
heal.committeeMemberName	Τζάμος, Χρήστος	el
heal.committeeMemberName	Παγουρτζής, Αριστείδης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Λογικής και Επιστήμης Υπολογισμών	el
heal.academicPublisherID	ntua
heal.numberOfPages	73 σ.	el
heal.fullTextAvailability	false