| dc.contributor.author | Ρέππας, Ευστράτιος
|
el |
| dc.contributor.author | Reppas, Eftsratios
|
en |
| dc.date.accessioned | 2025-12-08T06:38:08Z | |
| dc.date.available | 2025-12-08T06:38:08Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/63001 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30697 | |
| dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
| dc.subject | Πολυπρακτορική Ενισχυτική Μάθηση | el |
| dc.subject | Ψηφοφορία | el |
| dc.subject | Σχεδιασμός Μηχανισμών | el |
| dc.subject | Σχεδιασμός Περιβάλλοντος | el |
| dc.subject | Θεωρία Παιγνίων | el |
| dc.subject | Multi-Agent Reinforcement Learning | en |
| dc.subject | Voting | en |
| dc.subject | Mechanism Design | en |
| dc.subject | Environment Design | en |
| dc.subject | Game Theory | en |
| dc.title | An investigation of Dynamic Social Environment Design through Multi-Agent Reinforcement Learning (MARL) | en |
| dc.contributor.department | Τομέας Σημάτων, Ελέγχου και Ρομποτικής - Εργαστήριο Ρομποτικής και Αυτοματισμού | el |
| heal.type | bachelorThesis | |
| heal.classification | Machine Learning | en |
| heal.language | el | |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-07-01 | |
| heal.abstract | Multi-agent settings underpin a wide range of real-world phenomena, where the interaction of autonomous agents generally engenders elements of both coordination and competition. Designing environments that foster effective cooperation and improved collective performance has become a central challenge at the interface of game theory, mechanism design, and machine learning. This thesis explores the Social Environment Design (SED) framework through MultiAgent Reinforcement Learning (MARL), with a focus on implementing a dynamic voting system that enables agents to express preferences to a learning environment designer, or principal, a concept originally proposed by Zhang et al. [2024] but not previously implemented in practice. We begin with a review of foundational concepts for the theoretical analysis of multi-agent systems, spanning non-cooperative game theory, multi-agent Markov Decision Processes, voting systems, and mechanism design. Reinforcement learning is then introduced as the main learning paradigm for sequential decision-making under uncertainty. We follow a constructive approach that begins with the base solution concepts of single-agent MDPs of policy and value iteration and gradually culminates in the study of advanced policy optimization algorithms, most notably Proximal Policy Optimization (PPO), which will be the algorithm of choice for the experiments that we run on this thesis. We then combine these notions in Multi-Agent Reinforcement Learning (MARL), which serves as the core of our experimental analysis. The thesis discusses the main MARL paradigms and how PPO can be adapted for each. Following that, the SED problem is formalized as the dynamic shaping of incentives and collective decisions via a central, learning principal that adjusts environment parameters in response to agent voting. We benchmark this dynamic framework against static principal objectives and baselines without a principal, using the Commons Harvest (Agapiou et al. [2022]) game that models the Tragedy of the Commons as the environment in which agents interact, where taxation and voting mechanisms are tested. Our results highlight how adaptive interventions through taxation, focusing particularly on the dynamic voting scheme that being the main contribution of the SED framework, can guide self-interested agents toward more socially efficient and fair outcomes, while illuminating key challenges such as scalability, credit assignment, and non-stationarity. The thesis contributes theoretical and empirical insights into how principled environment design can foster cooperation and robustness in decentralized multi-agent systems, and outlines the potential of a novel direction termed learning-compatible mechanisms that align incentives for optimal learning rather than only post-convergence properties. | en |
| heal.abstract | Περίληψη Πολυπρακτορικά συστήματα εντοπίζονται σε ένα ευρύ φάσμα φαινομένων του πραγματικού κόσμου, με την αλληλεπίδραση των αυτόνομων πρακτόρων να χαρακτηρίζεται γενικά από στοιχεία τόσο συνεργασίας όσο και ανταγωνισμού. Ο σχεδιασμός περιβαλλόντων που προάγουν την αποτελεσματική συνεργασία και τη βελτιωμένη συλλογική απόδοση έχει αναδειχθεί ως κεντρική πρόκληση στη διασταύρωση της θεωρίας παιγνίων, του σχεδιασμού μηχανισμών και της μηχανικής μάθησης. Η παρούσα διπλωματική εργασία εξερευνά το πλαίσιο του αποκαλλούμενου Κοινωνικού Σχεδιασμού Περιβάλλοντος (SED) μέσω Πολυπρακτορικής Ενισχυτικής Μάθησης (MARL), με έμφαση στην υλοποίηση ενός δυναμικού συστήματος ψηφοφορίας που επιτρέπει στους πράκτορες να εκφράζουν τις προτιμήσεις τους προς τον σχεδιαστή του περιβάλλοντος, ο οποίος αποτελεί ο ίδιος έναν μαθησιακό πράκτορα, γνωστό ως principal. Το SED προτάθηκε αρχικά από τους Zhang et al. [2024], αλλά δεν έχει υλοποιηθεί στην πράξη. Η διπλωματική ξεκινάει με μια επισκόπηση θεμελιωδών εννοιών για τη θεωρητική ανάλυση πολυπρα-κτορικών συστημάτων, που εκτείνεται από τη μη-συνεργατική θεωρία παιγνίων και τις πολυπρακτορικές επεκτάσεις των Μαρκοβιακών Διαδικασιών Απόφασης (MDPs), έως τα συστήματα ψηφοφορίας και το σχεδιασμό μηχανισμών. Στη συνέχεια, εισάγεται η ενισχυτική μάθηση ως το κύριο πλαίσιο μηχανικής μάθησης για διαδοχική λήψη αποφάσεων υπό αβεβαιότητα. Ακολουθείται μια προσέγγιση που ξεκινά με τις βασικές έννοιες επίλυσης των μονοπρακτορικών MDPs μέσω pol- icy και value iteration και σταδιακά κτίζει προς τη μελέτη προχωρημένων αλγορίθμων βελτιστοποίησης πολιτικής, με κυριότερο τον Proximal Policy Optimization (PPO), ο οποίος αποτελεί και τον βασικό αλγόριθμο των πειραμάτων αυτής της εργασίας. Έπειτα, συνδυάζονται αυτές οι έννοιες στην Πολυπρακτορική Ενισχυτική Μάθηση (MARL), που αποτελεί και τον κορμό της πειραματικής ανάλυσης. Στη διπλωματική παρουσιάζονται τα κύρια παραδείγματα MARL και συζητείται πώς ο PPO μπορεί να προσαρμοστεί σε κάθε ένα από αυτά. Στη συνέχεια, το SED διατυπώνεται ως ο δυναμικός καθορισμός κινήτρων και συλλογικών αποφάσε- ων μέσω ενός κεντρικού, μαθησιακού principal που τροποποιεί παραμέτρους του περιβάλλοντος σε αντα-πόκριση της ψηφοφορίας των πρακτόρων. Η δυναμική αυτή προσέγγιση συγκρίνεται πειραματικά με στατικούς στόχους για τον principal, με σενάρια χωρίς principal και με σενάρια που βασίζονται σε θεωρητικά βέλτιστες πολιτκές, χρησιμοποιώντας το παιχνίδι Commons Harvest (Agapiou et al. [2022]), το οποίο μοντελοποιεί το δίλημμα της τραγωδίας των κοινών (tragedy of the Commons) ως το περιβάλλον στο οποίο αλληλεπιδρούν οι πράκτορες, και στο οποίο δοκιμάζονται μηχανισμοί φορολόγησης και ψηφοφορίας. Τα αποτελέσματά μας αναδεικνύουν πως οι προσαρμοστικές παρεμβάσεις μέσω φορολόγησης, με ιδιαίτερη έμφαση στο δυναμικό σχήμα ψηφοφορίας που αποτελεί τη βασική συμβολή του πλαισίου SED, μπορούν να καθοδηγήσουν εγωιστικούς πράκτορες προς πιο κοινωνικά αποδοτικά και δίκαια αποτελέσματα, ενώ παράλληλα φωτίζουν βασικές προκλήσεις όπως η κλιμακωσιμότητα, η απόδοση ευθύνης (credit assignment) και η μη-στασιμότητα του περιβάλλοντος. Η εργασία αυτή συνεισφέρει θεωρητικά και εμπειρικά στη μελέτη του σχεδιασμού περιβάλλοντος που ευνοεί τη συνεργασία και την ανθεκτικότητα σε αποκεντρωμένα πολυπρακτορικά συστήματα, και σκιαγραφεί τη δυναμική μιας νέας κατεύθυνσης που αποκαλούμε ως learning-compatible mechanisms, που στοχεύει στην ευθυγράμμιση των κινήτρων ως προς βέλτιστη μάθηση και όχι μόνο ως προς ασυμπτωτικές ιδιότητες | el |
| heal.advisorName | Κορδώνης, Ιωάννης | |
| heal.committeeMemberName | Ψυλλάκης, Χαράλαμπος | |
| heal.committeeMemberName | Παπαβασιλείου, Αντώνιος | |
| heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Ρομποτικής και Αυτοματισμού | el |
| heal.academicPublisherID | ntua | |
| heal.numberOfPages | 130 | |
| heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: