Η παρούσα διατριβή, προτείνει μια ιεραρχική πολυπρακτορική αρχιτεκτονική εφαρμοσμένη στο πεδίο του επιδέξιου ρομποτικού χειρισμού. Η προτεινόμενη αρχιτεκτονική βασίζεται σε μία εμφωλευμένη ιεραρχική δομή, όπου κάθε πράκτορας σχηματίζει (τοπικά) εικόνα για τη συνολική (γενικευμένη) κατάσταση του συστήματος καθώς επίσης και για την εξέλιξη της εργασίας, μέσω μιας ανάδρομης (top-down / bottom-up) διαδικασίας. Με την οργάνωση των πρακτόρων σε ένα συγκεκριμένο πρότυπο εμφωλευμένης αρχιτεκτονικής, όπως αυτό που προτείνεται στο πλαίσιο της παρούσης διατριβής επιτρέπεται α) περαιτέρω επεκτασιμότητα σε σαφώς πιο σύνθετες κινηματικές τοπολογίες, και β) η μοντελοποίηση του συστήματος συνολικά με ένα τμηματικό (modular) και παράλληλα, δομημένο (structural) τρόπο. Η προτεινόμενη μεθοδολογία βασίζεται στην εφαρμογή μηχανισμών ασαφούς ενισχυτικής μάθησης, με σκοπό την εξέλιξη, σε τοπικό επίπεδο για κάθε πράκτορα, μιας αντιστοίχισης καταστάσεων - δράσεων σε ένα συνεχές πεδίο, δημιουργώντας με αυτό τον τρόπο ένα πολυπρακτορικό σύστημα το οποίο επιδεικνύει αναπτυξιακές ιδιότητες. Οι πράκτορες αντιστοιχούν σε ανεξάρτητους βαθμούς ελευθερίας του συστήματος, οι οποίοι επιτυγχάνουν να αποκτήσουν εμπειρία και να αναπτύξουν δεξιότητες σχετικές με την εκτέλεση συγκεκριμένων εργασιών συνεργατικού χειρισμού, μέσω μιας συνεχόμενης διαδικασίας εξερεύνησης (exploration) και αξιοποίησης (exploitation) του χώρου αντιστοίχισης καταστάσεων - δράσεων. Η παρούσα διατριβή μελετά την εφαρμογή της προτεινόμενης μεθοδολογίας πολυπρακτορικού αναπτυξιακού ελέγχου σε προβλήματα που προέρχονται από το χώρο του επιδέξιου ρομποτικού χειρισμού, ενώ παράλληλα εξετάζει την επεκτασιμότητα της συγκεκριμένης αρχιτεκτονικής σε συνεργατικά αυτοκινούμενα ρομποτικά συστήματα. Πιο συγκεκριμένα, εκτελέσθηκαν και παρουσιάζονται τρία σύνολα πειραματικών δοκιμών με στόχο την αξιολόγηση της προτεινόμενης μεθοδολογίας: 1) το πρώτο σύνολο αριθμητικών πειραμάτων θεωρεί την περίπτωση απλής ανοικτής κινηματικής αλυσίδας η οποία παρουσιάζει κινηματικούς πλεονασμούς (kinematic redundancies) ως προς τον επιθυμητό στόχο, 2) το δεύτερο πείραμα επεκτείνει περαιτέρω την προηγούμενη περίπτωση, θεωρώντας τρεις παράλληλες κινηματικές αλυσίδες οι οποίες συνεργατικά προσπαθούν να επιτύχουν σταθερή ρομποτική λαβή, ενώ 3) το τελευταίο πείραμα εφαρμόζει την προτεινόμενη τοπολογία σε αυτοκινούμενα ρομπότ τα οποία πραγματοποιούν εργασία τύπου ``box - pushing'' (δηλαδή, από κοινού ώθηση χειριζόμενου αντικειμένου σε επιθυμητή θέση-στόχο). Οι πειραματικές αυτές δοκιμές αποσκοπούν στην αποτίμηση της ικανότητας που παρουσιάζει το προτεινόμενο πολυπρακτορικό σύστημα ως προς την αυτόνομη και προοδευτική απόκτηση συνεργατικών δεξιοτήτων μέσω μιας εσωτερικής διεργασίας μάθησης. Αυτή η εσωτερική διεργασία μάθησης δεν βασίζεται σε κάποιο εκ των προτέρων δεδομένο πλήρες μοντέλο της εκτελούμενης εργασίας, ούτε ακολουθεί κάποια στρατηγική καθολικής σχεδίασης δράσης βάσει ενός τέτοιου συνολικού μοντέλου. Τα πειραματικά αποτελέσματα που παρουσιάζονται στην παρούσα διατριβή δείχνουν την επεκτασιμότητα της προτεινόμενης εμφωλευμένης\textlatin{-}ιεραρχικής αρχιτεκτονικής, όπου νέοι πράκτορες μπορούν αναδρομικά να προστεθούν στην τοπολογία καλύπτοντας διαφορετικούς βαθμούς ελευθερίας. Επιπλέον, αναλύονται χαρακτηριστικά γενίκευσης γνώσης καθώς και ευρωστίας της προτεινόμενης μεθοδολογίας κινηματικού ελέγχου σε απρόβλεπτες αστοχίες δομικών στοιχείων του ρομποτικού συστήματος. Τα πειραματικά αποτελέσματα τα οποία παρουσιάζονται υπογραμμίζουν τις δυνατότητες που παρέχει ένα τέτοιο κατανεμημένο σχήμα ρομποτικού ελέγχου, καταδεικνύοντας την επιτυχή εκτέλεση συνεργατικών κινήσεων οι οποίες οδηγούν το ρομποτικό σύστημα σε κινηματικές λύσεις συγκρίσιμες με τις θεωρητικά βέλτιστες (near-optimal). Αναλύοντας τα αποτελέσματα που προέκυψαν από την παρούσα διατριβή, διαφαίνεται ότι ένα τέτοιο κατανεμημένο πλαίσιο ρομποτικής μάθησης διαθέτει δυνητικά υψηλό βαθμό επεκτασιμότητας στον έλεγχο ρομποτικών συστημάτων τα οποία μπορεί να είναι κινηματικά πιο σύνθετα, αποτελούμενα από πολλαπλούς βαθμούς ελευθερίας τόσο σε ανοικτές όσο και σε κλειστές κινηματικές τοπολογίες.
This thesis proposes a model-free learning mechanism based on a nested hierarchical multi-agent architecture, which is applied in the context of dexterous robot manipulation control. In the proposed multi-agent system, each agent forms a local (partial) view of the global system state and task progress, through a recursive (top-down/bottom-up) learning process. By organizing the agents in a nested architecture, the goal is to facilitate modular scaling to more complex kinematic topologies, with loose control coupling among the agents. Reinforcement learning is applied within each agent, to evolve a local state-to-action mapping in a continuous domain, thus leading to a system that exhibits developmental properties. The agents correspond in fact to independent degrees-of-freedom (DOF) of the system, managing to gain experience over the task that they collaboratively perform by continuously exploring and exploiting their state-to-action mapping space. This thesis addresses problem settings in the domain of kinematic control of dexterous robot manipulation. Three sets of numerical experiments are performed: (i) the first one considers the case of a single-linkage open kinematic chain, presenting kinematic redundancies given the desired task-goal, (ii) the second experiment extends further on the previous case by considering three individual kinematic chains cooperatively acting to achieve a quasi-static multifinger grasp, and (iii) the last experiment extends the proposed multi-agent framework to a control problem in the field of autonomous mobile robots, by considering two e-Puck robots performing a collaborative “box-pushing” task. The focal issue in all experiments is to assess the capacity of the proposed multi-agent system to progressively and autonomously acquire cooperative sensorimotor skills through a self-learning process, that is, without the use of any explicit model-based planning strategy. Generalization and robustness properties of the overall multi-agent system are also explored. Furthermore, these experiments aim to demonstrate the scaling properties of the proposed nested-hierarchical architecture, where new higher-level agents can be recursively added in the hierarchy to encapsulate individual active DOFs. The experimental results presented in this thesis demonstrate the feasibility of such a distributed multi-agent control framework, showing that the solutions which emerge are plausible and near-optimal.