HEAL DSpace

Προσαρμοστική ενισχυτική μηχανική μάθηση για την ανάπτυξη ρομποτικών δεξιοτήτων σε δυναμικά περιβάλλοντα

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βελεντζάς, Γεώργιος el
dc.contributor.author Velentzas, Georgios en
dc.date.accessioned 2018-11-22T10:40:29Z
dc.date.available 2018-11-22T10:40:29Z
dc.date.issued 2018-11-22
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/48078
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.16223
dc.rights Default License
dc.subject Ενισχυτική μηχανική μάθηση el
dc.subject Μαρκοβιανές διαδικασίες λήψης αποφάσεων el
dc.subject Μηχανές επιβράβευσης πολλαπλών επιλογών el
dc.subject Φίλτρο Kalman el
dc.subject Προσαρμοστικότητα el
dc.subject Δίλημμα εξερεύνησης-αξιοποίησης el
dc.subject Αλληλεπίδραση ανθρώπου-ρομπότ el
dc.subject Reinforcement learning en
dc.subject Markov decision processes en
dc.subject Multi-armed bandits en
dc.subject Kalman Filter en
dc.subject Adaptivity en
dc.subject Exploration-exploitation trade-off en
dc.subject Human-robot interaction en
dc.title Προσαρμοστική ενισχυτική μηχανική μάθηση για την ανάπτυξη ρομποτικών δεξιοτήτων σε δυναμικά περιβάλλοντα el
heal.type bachelorThesis
heal.classification Επιστήμη υπολογιστών/πληροφορική el
heal.classification Ρομποτική el
heal.classification Προχωρημένη μηχανική μάθηση el
heal.classificationURI http://data.seab.gr/concepts/77de68daecd823babbb58edb1c8e14d7106e83bb
heal.classificationURI http://data.seab.gr/concepts/989f7eb5ce955dbf96b4eebf1ff0aaec33f7e858
heal.classificationURI http://data.seab.gr/concepts/d5cf140063d31fceb414be6c8dcb4654ffd3efcf
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-10-22
heal.abstract Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη νέων μεθόδων προσαρμοστικής ενισχυτικής μηχανικής μάθησης με κύριο πεδίο εφαρμογής την αλληλεπίδραση ανθρώπου-ρομπότ. Η έρευνα αυτή ξεκινάει από το θεμελιώδες πρόβλημα της στοχαστικής βελτιστοποίησης αποφάσεων σε μία κατάσταση, ένα πρόβλημα που είναι γνωστό στην παγκόσμια βιβλιογραφία ως multi-armed bandit task, ενώ θα αποδοθεί στην ελληνική γλώσσα ως μηχανή επιβράβευσης πολλαπλών επιλογών. Στη συνέχεια οι ιδέες αυτές επεκτείνονται σε χρονομεταβλητές μαρκοβιανές διαδικασίες λήψης αποφάσεων άγνωστης δομής, προσεγγίζοντας το δίλημμα εξερεύνησης-αξιοποίησης (exploration-exploitation) με τεχνικές εμπνευσμένες από τον τομέα των νευροεπιστημών. Το πρόβλημα εκτίμησης της βέλτιστης (δυναμικά εξελισσόμενης) αναλογίας εξερεύνησης-αξιοποίησης έχει μελετηθεί εκτενώς στη βιβλιογραφία από τα πεδία Μηχανικής Μάθησης και Υπολογιστικής Νευροεπιστήμης. Στην εργασία αυτή παρουσιάζεται αρχικά μία προσπάθεια για γεφύρωση των δύο κλάδων με την ανάπτυξη ενός υβριδικού αλγορίθμου, συνδυάζοντας βιολογικά εμπνευσμένη μεταμάθηση με φίλτρα Kalman και επιβραβεύσεις εξερεύνησης. Συγκρίνοντας την επιτευχθείσα απόδοση με αυτή σύγχρονων και επίκαιρων δυναμικών αλγορίθμων σε ένα σύνολο αριθμητικών προσομοιώσεων διαφορετικών σεναρίων, ο υβριδικός αλγόριθμος φαίνεται να συνδυάζει τα πλεονεκτήματα των μεθόδων και επιδεικνύει καλύτερη συμπεριφορά των προγενέστερων. Στη συνέχεια, προτείνεται ένας προσαρμοστικός αλγόριθμος ενισχυτικής μάθησης με παραμετροποιημένες διακριτές δράσεις και εμπλουτισμένος με στρατηγική ενεργής εξερεύνησης ανά κατάσταση. Η εφαρμοσιμότητά του επιδεικνύεται σε κλασσικά προβλήματα, όπως αυτό της πλοήγησης σε άγνωστο χάρτη, καθώς και με τη βελτιστοποίηση της αλληλεπίδρασης ρομπότ-παιδιού παράλληλα με την εκμάθηση επίλυσης του παζλ «ο πύργος του Ανόι». el
heal.abstract The purpose of this diploma thesis is to develop new approaches and methods of adapti- ve reinforcement learning which will be mainly implemented on human-robot interaction scenarios. This research starts from the fundamental problem of stochastic optimization of decision making in one single state, a problem in the literature which is well known as a multi-armed bandit task. The ideas are then expanded on non-stationary Markov decision processes of an unknown structure, tackling the exploration-exploitation dilemma with a bio-inspired method from the eld of computational neuroscience. The problem of nding an e cient (dynamically changing) exploration-exploitation trade-o has been well studied both in the Machine Learning and Computational Neuro- science elds. The rst objective of this work is to bridge some of the di erent methods of these two elds by implementing a hybrid algorithm which combines bio-inspired meta- learning, Kalman lter, and exploration bonuses. The performance of the algorithm is then compared to several state-of-the-art alternatives on a set of non-stationary stocha- stic multi-armed bandit tasks, where it displays a good combination of advantages from di erent methods and outperforms these methods in the studied scenarios. The ideas are then expanded in multi-state dynamically changing environments by developing an adaptive reinforcement learning algorithm with parameterized actions and state-speci c exploration. Its applicability and adaptive nature is then demonstrated on a number of problem sets, like a continuous maze problem as an enhancement of the classic grid world which is used as a benchmark in arti cial intelligence and robotics, as well as in a simulated human-robot interaction where the robot's objective is to maximize a child's engagement/attention while learning to solve the known puzzle tower of Anoi . en
heal.sponsor Η εργασία αυτή χρηματοδοτήθηκε από το Ερευνητικό Πανεπιστημιακό Ινστιτούτο Συστημάτων Επικοινωνιών και Υπολογιστών (ΕΠΙΣΕΥ) της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (ΣΗΜΜΥ) του Εθνικού Μετσόβιου Πολυτεχνείου (ΕΜΠ), στα πλαίσια του Ευρωπαϊκού προγράμματος BabyRobot (H2020-ICT-24-2015). el
heal.advisorName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 121 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής