dc.contributor.author |
Βελεντζάς, Γεώργιος
|
el |
dc.contributor.author |
Velentzas, Georgios
|
en |
dc.date.accessioned |
2018-11-22T10:40:29Z |
|
dc.date.available |
2018-11-22T10:40:29Z |
|
dc.date.issued |
2018-11-22 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/48078 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.16223 |
|
dc.rights |
Default License |
|
dc.subject |
Ενισχυτική μηχανική μάθηση |
el |
dc.subject |
Μαρκοβιανές διαδικασίες λήψης αποφάσεων |
el |
dc.subject |
Μηχανές επιβράβευσης πολλαπλών επιλογών |
el |
dc.subject |
Φίλτρο Kalman |
el |
dc.subject |
Προσαρμοστικότητα |
el |
dc.subject |
Δίλημμα εξερεύνησης-αξιοποίησης |
el |
dc.subject |
Αλληλεπίδραση ανθρώπου-ρομπότ |
el |
dc.subject |
Reinforcement learning |
en |
dc.subject |
Markov decision processes |
en |
dc.subject |
Multi-armed bandits |
en |
dc.subject |
Kalman Filter |
en |
dc.subject |
Adaptivity |
en |
dc.subject |
Exploration-exploitation trade-off |
en |
dc.subject |
Human-robot interaction |
en |
dc.title |
Προσαρμοστική ενισχυτική μηχανική μάθηση για την ανάπτυξη ρομποτικών δεξιοτήτων σε δυναμικά περιβάλλοντα |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Επιστήμη υπολογιστών/πληροφορική |
el |
heal.classification |
Ρομποτική |
el |
heal.classification |
Προχωρημένη μηχανική μάθηση |
el |
heal.classificationURI |
http://data.seab.gr/concepts/77de68daecd823babbb58edb1c8e14d7106e83bb |
|
heal.classificationURI |
http://data.seab.gr/concepts/989f7eb5ce955dbf96b4eebf1ff0aaec33f7e858 |
|
heal.classificationURI |
http://data.seab.gr/concepts/d5cf140063d31fceb414be6c8dcb4654ffd3efcf |
|
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2018-10-22 |
|
heal.abstract |
Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη νέων μεθόδων προσαρμοστικής ενισχυτικής μηχανικής μάθησης με κύριο πεδίο εφαρμογής την αλληλεπίδραση ανθρώπου-ρομπότ. Η έρευνα αυτή ξεκινάει από το θεμελιώδες πρόβλημα της στοχαστικής βελτιστοποίησης αποφάσεων σε μία κατάσταση, ένα πρόβλημα που είναι γνωστό στην παγκόσμια βιβλιογραφία ως multi-armed bandit task, ενώ θα αποδοθεί στην ελληνική γλώσσα ως μηχανή επιβράβευσης πολλαπλών επιλογών. Στη συνέχεια οι ιδέες αυτές επεκτείνονται σε χρονομεταβλητές μαρκοβιανές διαδικασίες λήψης αποφάσεων άγνωστης δομής, προσεγγίζοντας το δίλημμα εξερεύνησης-αξιοποίησης (exploration-exploitation) με τεχνικές εμπνευσμένες από τον τομέα των νευροεπιστημών. Το πρόβλημα εκτίμησης της βέλτιστης (δυναμικά εξελισσόμενης) αναλογίας εξερεύνησης-αξιοποίησης έχει μελετηθεί εκτενώς στη βιβλιογραφία από τα πεδία Μηχανικής Μάθησης και Υπολογιστικής Νευροεπιστήμης. Στην εργασία αυτή παρουσιάζεται αρχικά μία προσπάθεια για γεφύρωση των δύο κλάδων με την ανάπτυξη ενός υβριδικού αλγορίθμου, συνδυάζοντας βιολογικά εμπνευσμένη μεταμάθηση με φίλτρα Kalman και επιβραβεύσεις εξερεύνησης. Συγκρίνοντας την επιτευχθείσα απόδοση με αυτή σύγχρονων και επίκαιρων δυναμικών αλγορίθμων σε ένα σύνολο αριθμητικών προσομοιώσεων διαφορετικών σεναρίων, ο υβριδικός αλγόριθμος φαίνεται να συνδυάζει τα πλεονεκτήματα των μεθόδων και επιδεικνύει καλύτερη συμπεριφορά των προγενέστερων. Στη συνέχεια, προτείνεται ένας προσαρμοστικός αλγόριθμος ενισχυτικής μάθησης με παραμετροποιημένες διακριτές δράσεις και εμπλουτισμένος με στρατηγική ενεργής εξερεύνησης ανά κατάσταση. Η εφαρμοσιμότητά του επιδεικνύεται σε κλασσικά προβλήματα, όπως αυτό της πλοήγησης σε άγνωστο χάρτη, καθώς και με τη βελτιστοποίηση της αλληλεπίδρασης ρομπότ-παιδιού παράλληλα με την εκμάθηση επίλυσης του παζλ «ο πύργος του Ανόι». |
el |
heal.abstract |
The purpose of this diploma thesis is to develop new approaches and methods of adapti-
ve reinforcement learning which will be mainly implemented on human-robot interaction
scenarios. This research starts from the fundamental problem of stochastic optimization
of decision making in one single state, a problem in the literature which is well known as a
multi-armed bandit task. The ideas are then expanded on non-stationary Markov decision
processes of an unknown structure, tackling the exploration-exploitation dilemma with a
bio-inspired method from the eld of computational neuroscience.
The problem of nding an e cient (dynamically changing) exploration-exploitation
trade-o has been well studied both in the Machine Learning and Computational Neuro-
science elds. The rst objective of this work is to bridge some of the di erent methods
of these two elds by implementing a hybrid algorithm which combines bio-inspired meta-
learning, Kalman lter, and exploration bonuses. The performance of the algorithm is
then compared to several state-of-the-art alternatives on a set of non-stationary stocha-
stic multi-armed bandit tasks, where it displays a good combination of advantages from
di erent methods and outperforms these methods in the studied scenarios.
The ideas are then expanded in multi-state dynamically changing environments by
developing an adaptive reinforcement learning algorithm with parameterized actions and
state-speci c exploration. Its applicability and adaptive nature is then demonstrated on a
number of problem sets, like a continuous maze problem as an enhancement of the classic
grid world which is used as a benchmark in arti cial intelligence and robotics, as well as in
a simulated human-robot interaction where the robot's objective is to maximize a child's
engagement/attention while learning to solve the known puzzle
tower of Anoi
. |
en |
heal.sponsor |
Η εργασία αυτή χρηματοδοτήθηκε από το Ερευνητικό Πανεπιστημιακό Ινστιτούτο Συστημάτων Επικοινωνιών και Υπολογιστών (ΕΠΙΣΕΥ) της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (ΣΗΜΜΥ) του Εθνικού Μετσόβιου Πολυτεχνείου (ΕΜΠ), στα πλαίσια του Ευρωπαϊκού προγράμματος BabyRobot (H2020-ICT-24-2015). |
el |
heal.advisorName |
Τζαφέστας, Κωνσταντίνος |
el |
heal.committeeMemberName |
Τζαφέστας, Κωνσταντίνος |
el |
heal.committeeMemberName |
Μαραγκός, Πέτρος |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
121 σ. |
|
heal.fullTextAvailability |
true |
|