dc.contributor.author |
Βονδικάκης, Ιωάννης
|
el |
dc.contributor.author |
Vondikakis, Ioannis
|
en |
dc.date.accessioned |
2022-11-18T10:39:21Z |
|
dc.date.available |
2022-11-18T10:39:21Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/56169 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.23867 |
|
dc.rights |
Default License |
|
dc.subject |
Τεχνητή Νοημοσύνη |
el |
dc.subject |
Artificial Intelligence |
en |
dc.subject |
Deep Reinforcement Learning |
en |
dc.subject |
Neural Networks |
el |
dc.subject |
Policy Gradient |
en |
dc.subject |
Q-learning |
en |
dc.subject |
Q-μάθηση |
el |
dc.subject |
Βαθιά Ενισχυτική Μάθηση |
el |
dc.subject |
Κλίση πολιτικής |
el |
dc.subject |
Νευρωνικά ∆ίκτυα |
el |
dc.title |
Μέθοδοί βαθιάς ενισχυτικής μάθησης στο βιντεοπαιχνίδι Supermario Bros |
el |
heal.type |
bachelorThesis |
|
heal.secondaryTitle |
Μελέτη και υλοποίηση |
el |
heal.classification |
Μηχανική μάθηση |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2022-07-06 |
|
heal.abstract |
Η ενισχυτική μάθηση αφορά έναν πράκτορα που αλληλεπιδρά με το περιβάλλον, μαθαίνοντας μια βέλτιστη πολιτική, μέσω δοκιμής και λάθους, για διαδοχικά προβλήματα λήψης αποφάσεων, σε ένα ευρύ φάσμα πεδίων όπως τις φυσικές επιστήμες, τις κοινωνικές επιστήμες και τη μηχανική.
Η βαθιά μάθηση ή αλλιώς τα βαθιά νευρωνικά δίκτυα, έχουν γνωρίσει μεγάλη άνθιση τα τελευταία χρόνια και έχουν επικρατήσει στην ενισχυτική μάθηση.
Στόχος της παρούσας διπλωματικής εργασίας είναι η παρουσίαση των βασικών εννοιών της ενισχυτικής μάθησης και η εφαρμογή αλγορίθμων βαθιάς ενισχυτικής μάθησης για την δημιουργία πρακτόρων ικανών να τερματίσουν τα επίπεδά στο βιντεοπαιχνίδι Sυper Mario Bros.
Οι πράκτορες μπορούν να μάθουν διάφορες πολιτικές ελέγχου
από ακατέργαστα δεδομένα εικονοστοιχείων με τη χρήση βαθιάς ενισχυτικής μάθησης.
Στην εργασία εξετάζονται και συγκρίνονται αλγόριθμοι Q-μάθησης (Q-learning) DQN,DDQN και βελτιστοποίησης πολιτικής (
Policy Optimization) PPO, A3C. |
el |
heal.advisorName |
Κόλλιας, Στέφανος |
el |
heal.committeeMemberName |
Στάμου, Γιώργος |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
82 σ. |
el |
heal.fullTextAvailability |
false |
|