dc.contributor.author | Βλαχογιαννόπουλος, Μάριος | el |
dc.contributor.author | Vlachogiannopoulos, Marios | en |
dc.date.accessioned | 2022-02-09T10:28:25Z | |
dc.date.available | 2022-02-09T10:28:25Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/54605 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.22303 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Δυναμικός προγραμματισμός | el |
dc.subject | Ενισχυτική μάθηση | el |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | Πράκτορες κριτή-δράστη | el |
dc.subject | Εξερεύνηση | el |
dc.subject | Περιέργεια | el |
dc.subject | Καινοτόμες καταστάσεις | el |
dc.subject | Πρόβλεψη δυναμικής περιβάλλοντος | el |
dc.subject | Dynamic programming | en |
dc.subject | Reinforcement learning | en |
dc.subject | Neural networks | el |
dc.subject | Actor-critic agents | en |
dc.subject | Exploration | en |
dc.subject | Curiosity | en |
dc.subject | Novel states | en |
dc.subject | Environment dynamics prediction | en |
dc.title | Βαθιά ενισχυτική μάθηση με χρήση μεθόδων εξερεύνησης βασισμένων σε σήμα ανταμοιβής περιέργειας | el |
heal.type | bachelorThesis | |
heal.classification | Βαθιά Ενισχυτική Μάθηση | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2021-10-26 | |
heal.abstract | Αντικείμενο της διπλωματικής εργασίας είναι η εξέταση μεθόδων εξερεύνησης μέσω μπόνους περιέργειας στο πλαίσιο αλγορίθμων βαθιάς ενισχυτικής μάθησης σε περιβάλλοντα βιντεοπαιχνιδιών Atari. Το πρόβλημα της εκμετάλλευσης-εξερεύνησης είναι κεντρικό στο πεδίο της ενισχυτικής μάθησης και αφορά την εξισορρόπηση της εκμετάλλευσης των καλύτερων πολιτικών που έχουν βρεθεί να αποδίδουν υψηλές επιστροφές και της εξερεύνησης του χώρου καταστάσεων-δράσεων για ανακάλυψη πιθανώς καλύτερων αποδοχών. Χρησιμοποιούμε τεχνικές που βασίζονται στη παραγωγή ενός σήματος ανταμοιβής περιέργειας και την υπέρθεση αυτού στο σήμα ανταμοιβής που δίνει το περιβάλλον, με σκοπό να επιτύχουμε εξερεύνηση καταστάσεων που παρουσιάζουν ενδιαφέρον. Το ενδιαφέρον των καταστάσεων μπορεί να μοντελοποιηθεί είτε μέσω της δυναμικής είτε μέσω της καινοτομίας της κατάστασης. Οι μέθοδοι δυναμικής ορίζουν το ενδιαφέρον μιας κατάστασης ως την αδυναμία πρόβλεψης της κατάστασης δεδομένης της προηγούμενης κατάστασης και της δράσης που επιλέχθηκε. Οι μέθοδοι καινοτομίας αφορούν την ανίχνευση καταστάσεων που ο πράκτορας δεν έχει επισκεφθεί στο παρελθόν. Τέλος, μελετάμε την ικανότητα πρακτόρων να επιτύχουν υψηλές επιστροφές χρησιμοποιώντας μόνο το σήμα εξερεύνησης, μηδενίζοντας το σήμα ανταμοιβής που προέρχεται από το περιβάλλον. | el |
heal.abstract | The purpose of this diploma thesis is to study exploration methods based on curiosity in the context of deep reinforcement learning with application in Atari video games. The problem of exploration-exploitation is central in the field of reinforcement learning and refers to the balancing between exploiting the already learned best policies to achieve high returns and exploring the state-action space to discover better policies. We use methods based on the production of a curiosity reward signal that is superi mposed on the external reward signal, given by the environment, that attempts to lead the agent to explore interesting states. Curiosity can be modeled either through the dynamics of the environment or through the novelty of a state. For methods using the dynamics of the environment, we consider interesting states as those that the agent is unable to predict given the previous state and the action taken. Novelty based methods attempt to discover states that have not been previously seen by the agent. Finally, we study the ability of agents to achieve high returns, solely using the exploration bonus, without any extrinsic reward signal from the environment. | en |
heal.advisorName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Στάμου, Γιώργος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών.Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 85 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: