HEAL DSpace

Εκμάθηση δεξιοτήτων ρομποτικού χειρισμού συνδυάζοντας δεδομένα επίδειξης και τεχνικές ενισχυτικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κοτσόβολης, Στυλιανός el
dc.contributor.author Kotsovolis, Stylianos en
dc.date.accessioned 2022-02-03T11:30:50Z
dc.date.available 2022-02-03T11:30:50Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54542
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22240
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Επιδέξιος χειρισμός εσωτερικής λαβής el
dc.subject Ρομποτικός χειρισμός el
dc.subject Ενισχυτική μάθηση el
dc.subject Μάθηση από δεδομένα επίδειξης el
dc.subject Παρακολούθηση τροχιάς el
dc.subject Ανάδραση δυνάμεων επαφής el
dc.subject Τηλεχειρισμός el
dc.subject Robotic manipulation en
dc.subject Dexterous in-hand manipulation en
dc.subject Reinforcement learning el
dc.subject Learning from demonstration en
dc.subject Trajectory following en
dc.subject Tactile feedback en
dc.subject Teleoperation en
dc.title Εκμάθηση δεξιοτήτων ρομποτικού χειρισμού συνδυάζοντας δεδομένα επίδειξης και τεχνικές ενισχυτικής μάθησης el
heal.type bachelorThesis
heal.classification Ρομποτική el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-06-24
heal.abstract Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη μεθόδου επιδέξιου εσωτερικού (in-hand) ρομποτικού χειρισμού αντικειμένων, χρησιμοποιώντας ενισχυτική μάθηση και δεδομένα επίδειξης. Η έρευνα ξεκινά από το πρόβλημα της στοχαστικής βελτιστοποίησης αποφάσεων σε περιβάλλοντα με άγνωστη δυναμική, με την βοήθεια της ενισχυτικής μηχανικής μάθησης. Στη συνέχεια, μελετάμε μεθόδους χρήσης δεδομένων επίδειξης, με σκοπό τη βελτίωση της επίδοσης της ενισχυτικής μάθησης και τη μίμηση της ανθρώπινης συμπεριφοράς. Επικεντρωνόμαστε στο πρόβλημα της χωρίς μοντέλο μάθησης (model-free learning) συμπεριφορών in-hand χειρισμού αντικειμένων στα οποία είναι επιθυμητή η παρακολούθηση τροχιών των μεγεθών του και ο έλεγχος της ασκούμενης δύναμης στο αντικείμενο. Για τον σκοπό αυτό προτείνεται ένας νευρο-ελεγκτής, ο οποίος εκπαιδεύεται αρχικά με επιβλεπόμενη μάθηση από τα δεδομένα επίδειξης και στη συνέχεια με ενισχυτική μάθηση ώστε να βελτιστοποιηθεί περαιτέρω ως προς την ζητούμενη συμπεριφορά. Συγκεκριμένα, χρησιμοποιούμε ένα μοντέλο δράστη-κριτή (actor-critic) με αναπαραστάσεις νευρωνικών δικτύων για μία γκαουσιανή πολιτική και μία συνάρτηση αξίας, τα οποία εκπαιδεύονται κατά την ενισχυτική μάθηση με μία μέθοδο βελτιστοποίησης πολιτικής βάσει περιοχών εμπιστοσύνης. Χρησιμοποιούμε, εκτός των πληροφοριών των διατάξεων ρομπότ και αντικειμένου και τις δυνάμεις αλληλεπίδρασης μεταξύ τους, ως κύρια πληροφορία διατήρησης της ζητούμενης εσωτερικής λαβής επαφής αλλά και με στόχο τον έλεγχο των δυνάμεων που αναπτύσσονται. Εφαρμόζουμε πειραματικά την μέθοδο στο πρόβλημα λαβής και ανύψωσης αντικειμένου υπό συγκεκριμένη επιθυμητή τροχιά ύψους και προσανατολισμού από το ανθρωπομορφικό ρομποτικό χέρι ADROIT στο περιβάλλον προσομοίωσης Mujoco, με την βοήθεια δεδομένων επίδειξης που λαμβάνονται με τηλεχειρισμό του ρομπότ, χρησιμοποιώντας τον αισθητήρα Leap Motion. Τα αποτελέσματα των πειραμάτων επιβεβαιώνουν την μέθοδο που προτείνουμε, αναδεικνύοντας τις δυνατότητες γενίκευσης της τροχιάς που έχει μάθει το σύστημα σχετικά με τον χρόνο και το τελικό ύψος ανύψωσης, ενώ παράλληλα επικυρώνουν την συμβολή των δεδομένων επίδειξης στην απόδοση της μάθησης και των αισθητήρων δύναμης στην επιτυχία της ζητούμενης λαβής. el
heal.abstract The goal of this thesis is the development of a method for learning of dexterous in-hand manipulation robotic skills, using reinforcement learning and demonstration data. The research begins with the problem of stochastic decision optimization for environments with unknown dynamics, using reinforcement machine learning. Afterwards, we explore methods of exploiting demonstration data to improve the performance of reinforcement learning and mimic the human behavior. We then focus on the problem of model-free learning for in-hand object manipulation tasks, in which it is desirable to follow a trajectory of the object's pose and control the magnitude of the contact forces. For this purpose, a neuro-controller is proposed; firstly trained with supervised learning from the demonstration data and then with reinforcement learning, in order to further optimize the acquired behavior. Specifically, we use an actor-critic model with neural network representations for a gaussian policy and a value function, which are trained with a trust region policy optimization method. Besides the poses of the robot and the object, we also use the contact forces for maintaining the desired in-hand contact grasp and for controlling the magnitude of the forces that are being developed. We apply the method experimentally to the problem of grasping and lifting an object under a specific desired trajectory of height and orientation by the anthropomorphic robotic hand ADROIT in the simulation environment Mujoco, with the help of demonstration data obtained using a Leap Motion sensor device. The experimental results validate the proposed method, underlining the possibilities of generalization of the learned trajectory regarding time and final lifting height, while highlighting the contribution of the demonstration data in terms of efficiency and the contribution of tactile feedback in the success of the desired in-hand grasp. en
heal.advisorName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Ψυλλάκης, Χαράλαμπος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Ρομποτικής και Αυτοματισμού el
heal.academicPublisherID ntua
heal.numberOfPages 120 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα