Ανάπτυξη αποδοτικών αλγορίθμων για Markov Decision Processes

Παπαγεωργίου, Ιωάννης; Papageorgiou, Ioannis

dc.contributor.author	Παπαγεωργίου, Ιωάννης	el
dc.contributor.author	Papageorgiou, Ioannis	en
dc.date.accessioned	2022-09-13T10:50:56Z
dc.date.available	2022-09-13T10:50:56Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/55655
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.23353
dc.rights	Default License
dc.subject	Μαρκοβιανές διαδικασίες αποφάσεων	el
dc.subject	Διαχείριση πόρων	el
dc.subject	Ενισχυτική μάθηση	el
dc.subject	Άπειρος ορίζοντας	el
dc.subject	Πεπερασμένος ορίζοντας	el
dc.subject	Markov decision processes	en
dc.subject	Resource management	en
dc.subject	Reinforcement learning	en
dc.subject	Infinite horizon	en
dc.subject	Finite horizon	en
dc.title	Ανάπτυξη αποδοτικών αλγορίθμων για Markov Decision Processes	el
dc.title	Efficient Markov Decision Process Algorithms	en
heal.type	bachelorThesis
heal.classification	Operations Research	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-03-23
heal.abstract	Οι Διαδικασίες Αποφάσεων Markov (Markov Decision Processes ή MDP για συντομία) αποτελούν ένα από τα σημαντικότερα εργαλεία επίλυσης προβλημάτων αποφάσεων υπό αβεβαιότητα την σήμερον ημέρα. Χρησιμοποιούνται κατά κόρον σε σύγχρονες εφαρμογές, ιδιαίτερα σε αυτές που αφορούν Ενισχυτική Μάθηση. Σε αυτά, ένας παίκτης καλείται να λάβει αποφάσεις οι οποίες προκαλούν μεταβολές στο περιβάλλον του ενώ επιπλέον του αποδίδουν μια ανταμοιβή-κίνητρο, προκειμένου να μεγιστοποιήσει αυτήν την ανταμοιβή. Αναλόγως με το αν ο αριθμός των αποφάσεων που καλείται να κάνει ο πράκτορας είναι πεπερασμένος ή άπειρος, το MDP χαρακτηρίζεται ως Πεπερασμένου ή Απείρου Ορίζοντα. Τα MDP Πεπερασμένου Ορίζοντα επιλέγονται σε αρκετές εφαρμογές έναντι του Απείρου, εφόσον αντικατοπτρίζουν καλύτερα προβλήματα του πραγματικού κόσμου, τα οποία εξ ορισμού κάποτε θα ολοκληρωθούν, όπως σε προβλήματα διαχείρισης πόρων. Εντούτοις, ένα σημαντικό πρόβλημα που εμφανίζουν έγκειται στην μνήμη που καταλαμβάνει η λύση που υπολογίζεται, ιδιαίτερα σε περιπτώσεις όπου ο αλγόριθμος εκτελείται σε συσκευές περιορισμένων δυνατοτήτων υλικού, όπως κινητά ή tablets. Στην παρούσα εργασία προτείνονται δυο νέες μέθοδοι που αντιμετωπίζουν το πρόβλημα μνήμης των MDP Πεπερασμένου Ορίζοντα. Οι μέθοδοι αυτές επιλέγουν να αποθηκεύουν στη μνήμη ένα μέρος της λύσης και στη συνέχεια να χρησιμοποιούν αυτό για επανυπολογισμό της υπόλοιπης, ανάλογα με τις εκάστοτε ανάγκες. Η πρώτη, που ονομάζεται Λύση Ρίζας, απαιτεί σημαντικά λιγότερη μνήμη και σχεδόν ίδιο χρόνο εκτέλεσης με την επικρατέστερη μέθοδο που χρησιμοποιείται ως τώρα για επίλυση MDP. Η δεύτερη λύση (Λογαριθμική Λύση) αποθηκεύει ακόμη μικρότερο μέρος της λύσης στη μνήμη (σχεδόν μηδαμινό), με μια μικρή επιβάρυνση χρόνου. Τα παραπάνω συμπεράσματα, αφού θεμελιώθηκαν πρωτίστως θεωρητικά, επιβεβαιώθηκαν και πειραματικά, σε ήδη υπάρχοντα, προσαρμοσμένα στις ανάγκες, τεχνητά δεδομένα που αφορούν διαχείριση πόρων συστάδων υπολογιστών, τόσο για τον χρόνο εκτέλεσης των αλγορίθμων όσο και για την μνήμη που καταλαμβάνουν. Επιπλέον, συγκρίθηκαν τόσο με ήδη υπάρχοντες μεθόδους καθώς και με προσεγγιστικές μεθόδους επίλυσης. Η συνεισφορά μας μέσω αυτής της εργασίας έγκειται στο γεγονός πως, με την πρόταση αυτών των νέων αλγορίθμων, ο χρήστης που αξιοποιεί MDP στην εκάστοτε εφαρμογή έχει την δυνατότητα να επιλέξει την λύση-αλγόριθμο που εξυπηρετεί όσο το δυνατόν καλύτερα τις ανάγκες του, αναλόγως με το σύστημα που διαθέτει. Τέλος, έγινε προσπάθεια βελτιστοποίησης του χρόνου εκτέλεσης του βασικού επαναληπτικού αλγορίθμου επίλυσης MDP Απείρου Ορίζοντα (Value Iteration) με χρήση φραγμάτων ώστε να μειωθεί ο χρόνος σύγκλισης. Εντούτοις, οι προσπάθειες ήταν ανεπιτυχείς, πιθανώς εξαιτίας της εφαρμογής που επιλέχθηκε για αξιολόγηση.	el
heal.abstract	Markov Decision Processes (MDPs) are one of the most important statistical tools utilized towards solving decision problems under uncertain conditions. They are widely used in modern application, especially those involving the Reinforcement Learning framework. In such problems, an agent is required to make decisions which incur changes to its environment while also granting them a reward, acting as a motivation. The decisions the agent makes must be chosen such that the total reward they receive is maximized. Depending on whether the number of choices the agent makes is finite or infinite, the MDP can be characterized as having a Finite or Infinite Horizon. Finite Horizon MDPs are preferred in a variety of application over the Infinite Horizon ones, as they better simulate real world problems, which must eventually terminate, such as resource management problems. Nevertheless, an important issue they present involves the memory the solution occupies on the system it runs, especially when the algorithm is executed in machines with limited hardware abilities, such as mobile phones or tablets. In this work two new MDP-solving methods are introduced dealing with the memory problems Finite-Horizon MDPs face. Those methods opt for storing in memory a part of the solution and utilizing it to recalculate every other part of the solution as needed. The first, known as Root Solution, requires much less memory and almost the same execution time as the most predominant method used to solve Finite-Horizon MDPs. The second method, known as Logarithmic Solution, stores an even smaller, almost non-existent, part of the solution in memory with a small toll on execution time. The above results were first and foremost discussed and proven in theory and validated afterwards using experiments on pre-existing, fit-to-need, simulated data regarding elastic resource management in cloud computing clusters. Those experiments involved execution time, memory needs as well as comparisons of the newly introduced methods with pre-existing ones and approximations. Our contribution through this thesis lies on the fact that, having suggested those new algorithms, any user desiring to utilize a FHMDP in their application is now able to opt for the algorithm that meets their needs as best as possible, depending on the system the possess. Finally, an attempt towards optimizing the execution time of the fundamental iterative Infinite-Horizon MDP solving algorithm (Value Iteration) was made. This attempt involved calculating upper and lower bounds of the function the algorithm is iterating over to greatly reduce the execution time. Despite the attempt, our efforts did not turn out to be fruitful, probably because of the application used for evaluation.	en
heal.advisorName	Kantere, Verena	en
heal.committeeMemberName	Παπαβασιλείου, Συμεών	el
heal.committeeMemberName	Καρράς, Παναγιώτης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false