HEAL DSpace

Βαθιά ενισχυτική μάθηση με χρήση μεθόδων εξερεύνησης βασισμένων σε σήμα ανταμοιβής περιέργειας

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βλαχογιαννόπουλος, Μάριος el
dc.contributor.author Vlachogiannopoulos, Marios en
dc.date.accessioned 2022-02-09T10:28:25Z
dc.date.available 2022-02-09T10:28:25Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54605
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22303
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Δυναμικός προγραμματισμός el
dc.subject Ενισχυτική μάθηση el
dc.subject Νευρωνικά δίκτυα el
dc.subject Πράκτορες κριτή-δράστη el
dc.subject Εξερεύνηση el
dc.subject Περιέργεια el
dc.subject Καινοτόμες καταστάσεις el
dc.subject Πρόβλεψη δυναμικής περιβάλλοντος el
dc.subject Dynamic programming en
dc.subject Reinforcement learning en
dc.subject Neural networks el
dc.subject Actor-critic agents en
dc.subject Exploration en
dc.subject Curiosity en
dc.subject Novel states en
dc.subject Environment dynamics prediction en
dc.title Βαθιά ενισχυτική μάθηση με χρήση μεθόδων εξερεύνησης βασισμένων σε σήμα ανταμοιβής περιέργειας el
heal.type bachelorThesis
heal.classification Βαθιά Ενισχυτική Μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-10-26
heal.abstract Αντικείμενο της διπλωματικής εργασίας είναι η εξέταση μεθόδων εξερεύνησης μέσω μπόνους περιέργειας στο πλαίσιο αλγορίθμων βαθιάς ενισχυτικής μάθησης σε περιβάλλοντα βιντεοπαιχνιδιών Atari. Το πρόβλημα της εκμετάλλευσης-εξερεύνησης είναι κεντρικό στο πεδίο της ενισχυτικής μάθησης και αφορά την εξισορρόπηση της εκμετάλλευσης των καλύτερων πολιτικών που έχουν βρεθεί να αποδίδουν υψηλές επιστροφές και της εξερεύνησης του χώρου καταστάσεων-δράσεων για ανακάλυψη πιθανώς καλύτερων αποδοχών. Χρησιμοποιούμε τεχνικές που βασίζονται στη παραγωγή ενός σήματος ανταμοιβής περιέργειας και την υπέρθεση αυτού στο σήμα ανταμοιβής που δίνει το περιβάλλον, με σκοπό να επιτύχουμε εξερεύνηση καταστάσεων που παρουσιάζουν ενδιαφέρον. Το ενδιαφέρον των καταστάσεων μπορεί να μοντελοποιηθεί είτε μέσω της δυναμικής είτε μέσω της καινοτομίας της κατάστασης. Οι μέθοδοι δυναμικής ορίζουν το ενδιαφέρον μιας κατάστασης ως την αδυναμία πρόβλεψης της κατάστασης δεδομένης της προηγούμενης κατάστασης και της δράσης που επιλέχθηκε. Οι μέθοδοι καινοτομίας αφορούν την ανίχνευση καταστάσεων που ο πράκτορας δεν έχει επισκεφθεί στο παρελθόν. Τέλος, μελετάμε την ικανότητα πρακτόρων να επιτύχουν υψηλές επιστροφές χρησιμοποιώντας μόνο το σήμα εξερεύνησης, μηδενίζοντας το σήμα ανταμοιβής που προέρχεται από το περιβάλλον. el
heal.abstract The purpose of this diploma thesis is to study exploration methods based on curiosity in the context of deep reinforcement learning with application in Atari video games. The problem of exploration-exploitation is central in the field of reinforcement learning and refers to the balancing between exploiting the already learned best policies to achieve high returns and exploring the state-action space to discover better policies. We use methods based on the production of a curiosity reward signal that is superi mposed on the external reward signal, given by the environment, that attempts to lead the agent to explore interesting states. Curiosity can be modeled either through the dynamics of the environment or through the novelty of a state. For methods using the dynamics of the environment, we consider interesting states as those that the agent is unable to predict given the previous state and the action taken. Novelty based methods attempt to discover states that have not been previously seen by the agent. Finally, we study the ability of agents to achieve high returns, solely using the exploration bonus, without any extrinsic reward signal from the environment. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Στάμου, Γιώργος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών.Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.academicPublisherID ntua
heal.numberOfPages 85 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα