HEAL DSpace

Ανάπτυξη αποδοτικών αλγορίθμων για Markov Decision Processes

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Παπαγεωργίου, Ιωάννης el
dc.contributor.author Papageorgiou, Ioannis en
dc.date.accessioned 2022-09-13T10:50:56Z
dc.date.available 2022-09-13T10:50:56Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/55655
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.23353
dc.rights Default License
dc.subject Μαρκοβιανές διαδικασίες αποφάσεων el
dc.subject Διαχείριση πόρων el
dc.subject Ενισχυτική μάθηση el
dc.subject Άπειρος ορίζοντας el
dc.subject Πεπερασμένος ορίζοντας el
dc.subject Markov decision processes en
dc.subject Resource management en
dc.subject Reinforcement learning en
dc.subject Infinite horizon en
dc.subject Finite horizon en
dc.title Ανάπτυξη αποδοτικών αλγορίθμων για Markov Decision Processes el
dc.title Efficient Markov Decision Process Algorithms en
heal.type bachelorThesis
heal.classification Operations Research en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-03-23
heal.abstract Οι Διαδικασίες Αποφάσεων Markov (Markov Decision Processes ή MDP για συντομία) αποτελούν ένα από τα σημαντικότερα εργαλεία επίλυσης προβλημάτων αποφάσεων υπό αβεβαιότητα την σήμερον ημέρα. Χρησιμοποιούνται κατά κόρον σε σύγχρονες εφαρμογές, ιδιαίτερα σε αυτές που αφορούν Ενισχυτική Μάθηση. Σε αυτά, ένας παίκτης καλείται να λάβει αποφάσεις οι οποίες προκαλούν μεταβολές στο περιβάλλον του ενώ επιπλέον του αποδίδουν μια ανταμοιβή-κίνητρο, προκειμένου να μεγιστοποιήσει αυτήν την ανταμοιβή. Αναλόγως με το αν ο αριθμός των αποφάσεων που καλείται να κάνει ο πράκτορας είναι πεπερασμένος ή άπειρος, το MDP χαρακτηρίζεται ως Πεπερασμένου ή Απείρου Ορίζοντα. Τα MDP Πεπερασμένου Ορίζοντα επιλέγονται σε αρκετές εφαρμογές έναντι του Απείρου, εφόσον αντικατοπτρίζουν καλύτερα προβλήματα του πραγματικού κόσμου, τα οποία εξ ορισμού κάποτε θα ολοκληρωθούν, όπως σε προβλήματα διαχείρισης πόρων. Εντούτοις, ένα σημαντικό πρόβλημα που εμφανίζουν έγκειται στην μνήμη που καταλαμβάνει η λύση που υπολογίζεται, ιδιαίτερα σε περιπτώσεις όπου ο αλγόριθμος εκτελείται σε συσκευές περιορισμένων δυνατοτήτων υλικού, όπως κινητά ή tablets. Στην παρούσα εργασία προτείνονται δυο νέες μέθοδοι που αντιμετωπίζουν το πρόβλημα μνήμης των MDP Πεπερασμένου Ορίζοντα. Οι μέθοδοι αυτές επιλέγουν να αποθηκεύουν στη μνήμη ένα μέρος της λύσης και στη συνέχεια να χρησιμοποιούν αυτό για επανυπολογισμό της υπόλοιπης, ανάλογα με τις εκάστοτε ανάγκες. Η πρώτη, που ονομάζεται Λύση Ρίζας, απαιτεί σημαντικά λιγότερη μνήμη και σχεδόν ίδιο χρόνο εκτέλεσης με την επικρατέστερη μέθοδο που χρησιμοποιείται ως τώρα για επίλυση MDP. Η δεύτερη λύση (Λογαριθμική Λύση) αποθηκεύει ακόμη μικρότερο μέρος της λύσης στη μνήμη (σχεδόν μηδαμινό), με μια μικρή επιβάρυνση χρόνου. Τα παραπάνω συμπεράσματα, αφού θεμελιώθηκαν πρωτίστως θεωρητικά, επιβεβαιώθηκαν και πειραματικά, σε ήδη υπάρχοντα, προσαρμοσμένα στις ανάγκες, τεχνητά δεδομένα που αφορούν διαχείριση πόρων συστάδων υπολογιστών, τόσο για τον χρόνο εκτέλεσης των αλγορίθμων όσο και για την μνήμη που καταλαμβάνουν. Επιπλέον, συγκρίθηκαν τόσο με ήδη υπάρχοντες μεθόδους καθώς και με προσεγγιστικές μεθόδους επίλυσης. Η συνεισφορά μας μέσω αυτής της εργασίας έγκειται στο γεγονός πως, με την πρόταση αυτών των νέων αλγορίθμων, ο χρήστης που αξιοποιεί MDP στην εκάστοτε εφαρμογή έχει την δυνατότητα να επιλέξει την λύση-αλγόριθμο που εξυπηρετεί όσο το δυνατόν καλύτερα τις ανάγκες του, αναλόγως με το σύστημα που διαθέτει. Τέλος, έγινε προσπάθεια βελτιστοποίησης του χρόνου εκτέλεσης του βασικού επαναληπτικού αλγορίθμου επίλυσης MDP Απείρου Ορίζοντα (Value Iteration) με χρήση φραγμάτων ώστε να μειωθεί ο χρόνος σύγκλισης. Εντούτοις, οι προσπάθειες ήταν ανεπιτυχείς, πιθανώς εξαιτίας της εφαρμογής που επιλέχθηκε για αξιολόγηση. el
heal.abstract Markov Decision Processes (MDPs) are one of the most important statistical tools utilized towards solving decision problems under uncertain conditions. They are widely used in modern application, especially those involving the Reinforcement Learning framework. In such problems, an agent is required to make decisions which incur changes to its environment while also granting them a reward, acting as a motivation. The decisions the agent makes must be chosen such that the total reward they receive is maximized. Depending on whether the number of choices the agent makes is finite or infinite, the MDP can be characterized as having a Finite or Infinite Horizon. Finite Horizon MDPs are preferred in a variety of application over the Infinite Horizon ones, as they better simulate real world problems, which must eventually terminate, such as resource management problems. Nevertheless, an important issue they present involves the memory the solution occupies on the system it runs, especially when the algorithm is executed in machines with limited hardware abilities, such as mobile phones or tablets. In this work two new MDP-solving methods are introduced dealing with the memory problems Finite-Horizon MDPs face. Those methods opt for storing in memory a part of the solution and utilizing it to recalculate every other part of the solution as needed. The first, known as Root Solution, requires much less memory and almost the same execution time as the most predominant method used to solve Finite-Horizon MDPs. The second method, known as Logarithmic Solution, stores an even smaller, almost non-existent, part of the solution in memory with a small toll on execution time. The above results were first and foremost discussed and proven in theory and validated afterwards using experiments on pre-existing, fit-to-need, simulated data regarding elastic resource management in cloud computing clusters. Those experiments involved execution time, memory needs as well as comparisons of the newly introduced methods with pre-existing ones and approximations. Our contribution through this thesis lies on the fact that, having suggested those new algorithms, any user desiring to utilize a FHMDP in their application is now able to opt for the algorithm that meets their needs as best as possible, depending on the system the possess. Finally, an attempt towards optimizing the execution time of the fundamental iterative Infinite-Horizon MDP solving algorithm (Value Iteration) was made. This attempt involved calculating upper and lower bounds of the function the algorithm is iterating over to greatly reduce the execution time. Despite the attempt, our efforts did not turn out to be fruitful, probably because of the application used for evaluation. en
heal.advisorName Kantere, Verena en
heal.committeeMemberName Παπαβασιλείου, Συμεών el
heal.committeeMemberName Καρράς, Παναγιώτης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής