Σχεδιασμός ρομποτικής κίνησης βάσει ανάδρασης δύναμης σε διαδραστικές εργασίες χειρισμού με εφαρμογή μεθόδων ενισχυτικής μάθησης

Παπαδημητρίου, Ευθύμιος; Papadimitriou, Efthymios

dc.contributor.author	Παπαδημητρίου, Ευθύμιος	el
dc.contributor.author	Papadimitriou, Efthymios	en
dc.date.accessioned	2024-09-03T07:37:22Z
dc.date.available	2024-09-03T07:37:22Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/60118
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27814
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.subject	Eπιδέξιος ρομποτικός χειρισμός	el
dc.subject	Ανάδραση δύναμης	el
dc.subject	Δυναμική εκρίζωσης και συγκομιδής μανιταριών	el
dc.subject	Model-free reinforcement learning	en
dc.subject	Προσαρμοστική εξερεύνηση και ρυθμός μάθησης	el
dc.subject	SARSA learning algorithm	en
dc.subject	Function approximation	en
dc.subject	Radial Basis Function	en
dc.subject	Προσομοίωση	el
dc.subject	Panda robot manipulator	en
dc.title	Σχεδιασμός ρομποτικής κίνησης βάσει ανάδρασης δύναμης σε διαδραστικές εργασίες χειρισμού με εφαρμογή μεθόδων ενισχυτικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Ρομποτική	el
heal.classification	Τεχνητή Νοημοσύνη	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-04-26
heal.abstract	Η αυτοματοποιημένη ρομποτική συγκομιδή καρπών αποτελεί σημαντικό πεδίο εφαρμογής για επιδέξιους ρομποτικούς μηχανισμούς χειρισμού εύθραυστων και ευαίσθητων αντικειμένων. Ειδικά το αντικείμενο της συγκομιδής μανιταριών έχει ειδικές απαιτήσεις και η εφαρμογή επιδέξιων ρομποτικών συστημάτων για την αυτοματοποίηση κάποιων σταδίων της διαδικασίας έχει αποκτήσει σημαντικό ενδιαφέρον κατά τα τελευταία χρόνια. Η συγκομιδή συνδυάζει πολλούς διαφορετικούς τομείς όπως ο Επιδέξιος Χειρισμός και η Ενισχυτική Μάθηση, για την επίτευξη μιας σύνθετης διαδικασίας εκρίζωσης του μανιταριού, χωρίς ταυτόχρονα να του προκληθεί ζημιά. Σε αυτή τη Διπλωματική Εργασία υλοποιείται μια μέθοδος Ενισχυτικής Μάθησης Αγνώστου Μοντέλου, η Episodic Linear Semi-gradient SARSA, για το συνδυασμό των ενεργειών της στρέψης και κάμψης (γύρω από συγκεκριμένο άξονα), που αποτελούν θεμελιώδεις ανεξάρτητες κινήσεις για την συμβατική δράση εκρίζωσης και συγκομιδής, αποφεύγοντας την επιβολή μεγάλων ροπών στο μανιτάρι μέσω κινήσεων που αντιτίθενται στη δυναμική του. Οι ροπές θα γίνονται αντιληπτές μέσω ανάδρασης δύναμης. Η συγκεκριμένη δράση επενέργησης σε δύο βαθμούς ελευθερίας ανάγεται αρχικά στην εκπαίδευση ενός κυκλικού πράκτορα να δραπετεύει από έναν διδιάστατο διάδρομο, ο οποίος ορίζεται από τοίχους. Η διείσδυση προκαλεί δυνάμεις επαναφοράς. Ο διάδρομος αντιπροσωπεύει τη δυναμική εκρίζωσης του μανιταριού, και οι δύο διαστάσεις τους δύο βαθμούς ελευθερίας στο πραγματικό πρόβλημα. Στη συνέχεια, ακολουθεί εφαρμογή της μεθόδου σε πραγματική διάταξη ενός αντικειμένου που προσομοιάζει ένα μανιτάρι, με εκπαίδευση του ρομποτικού βραχίονα Panda.	el
heal.abstract	The automated robotic harvesting is a significant application field for dexterous robotic handling mechanisms of delicate and sensitive objects. Especially the harvesting of mushrooms entails specific requirements, and the application of dexterous robotic systems for automating certain stages of the process has gained significant interest in recent years. Harvesting combines plenty of different domains, such as Dexterous Manipulation and Reinforcement Learning, aiming to carry out the complex process of mushroom outrooting without inflicting damage on it. In this Thesis, a Model-free Reinforcement Learning method is implemented, called Episodic Linear Semi-gradient SARSA, for combining the twisting and bending (about specific axis) actions, which are fundamental independent moves for conventional harvesting, while avoiding excessive torques on the mushroom because of movements that are not compatible to its dynamics. The agent will be notified about the torques through force feedback. This task of 2 DoF action will be firstly implemented in a simplified simulation environment, where a round agent learns to exit from a 2-dimensional maze, which is defined by walls. Penetrating those walls provokes restoring forces. The maze represents the outrooting dynamics of the mushroom, and the 2 dimensions are an expression of the 2 DoF of the real problem. Following the simulation, the method is used on a real object that resembles a mushroom, by training the Panda robot arm.	en
heal.advisorName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.committeeMemberName	Κορδώνης, Ιωάννης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	124 σ.	el
heal.fullTextAvailability	false