| dc.contributor.author | Konstantaropoulos, Orestis
|
en |
| dc.contributor.author | Κωνσταντόπουλος, Ορέστης
|
el |
| dc.date.accessioned | 2025-12-04T09:28:05Z | |
| dc.date.available | 2025-12-04T09:28:05Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62990 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30686 | |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject | Όραση Υπολογιστών | el |
| dc.subject | Ενισχυτική μάθηση | el |
| dc.subject | Μοντέλα μετάβασης | el |
| dc.subject | Βαθιά μάθηση | el |
| dc.subject | Object-Centric Computer Vision | en |
| dc.subject | Active Perception | en |
| dc.subject | World Models | en |
| dc.subject | Deep Learning | en |
| dc.subject | Reinforcement Learning | en |
| dc.title | Emergent Object-Centric Perception Through Intrinsically Motivated Play | en |
| heal.type | bachelorThesis | |
| heal.classification | Artifial Intelligence | en |
| heal.language | el | |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-06-18 | |
| heal.abstract | Unlike conventional vision systems that rely on passive observation, biological agents can learn through physical interaction. Human infants, for example, spend hours interacting with toys in seemingly random ways—exploring their environment and engaging in non-goal-directed behaviors. It is believed that such agents construct internal transition models that allow them to predict the future states of their environment, which they later use to efficiently acquire new skills. This process typically unfolds in the absence of explicit supervision. Instead, biological learning is driven by intrinsic incentives and shaped by structural inductive biases that help the agent make sense of its surroundings. This raises a fundamental question: Can a robot similarly develop an understanding of its environment purely through interaction, without any prior knowledge or external supervision? In this thesis, we investigate how artificial agents can autonomously explore and learn about their environment through intrinsic motivation, much like how children engage in curious free play. To this end, we propose a novel, fully self-supervised, object-centric learning framework. Our system first segments visual input into discrete entities using Slot Attention, a self-supervised object-centric vision model trained entirely on data collected from random actions of a robotic arm. A graph-based world model is then trained to predict object-centric dynamics. However, due to the limited diversity of interactions in the initial dataset, the model struggles to capture object motion. To overcome this, we introduce an intrinsically motivated reward signal based on world model’s prediction error. This reward guides a policy that actively collects informative trajectories by proposing actions that are more likely to challenge the current model’s predictions. Empirically, this policy proposes actions that result in up to three times more object displacement compared to random actions, leading to significantly richer training data. We then fine-tune both the vision and world model on these data, which leads to improved prediction and reconstruction performance. We validate our method in a simulated robotic environment with diverse objects, demonstrating that meaningful visual and physical representations can emerge entirely from self-supervised interaction. The findings of this thesis contribute to the growing body of cognitively inspired algorithms designed to enhance artificial learning systems. Specifically, this thesis highlights the potential of intrinsically motivated, object-centric learning for autonomous world perception and modeling; paving the way for the designing of systems that can incrementally develop in novel, open-ended environments without human supervision. Part of our work was accepted at the 2025 IEEE International Conference on Development and Learning (ICDL) Prague, titled "Push, See, Predict: Emergent Perception Through Intrinsically Motivated Play" with the authors being Orestis Konstantaropoulos, Mehdi Khamassi, Petros Maragos and George Retsinas. | en |
| heal.abstract | Σε αντίθεση με τα τυπικά συστήματα όρασης υπολογιστών που βασίζονται στην παθητική επεξεργασία δεδομένων, στη βιολογία η μάθηση συμβαίνει συχνότερα μέσω αλληλεπίδρασης. Τα παιδιά, για παράδειγμα, αλληλεπιδρούν για ώρες με τα παιχνίδια τους και εξερευνούν το περιβάλλον τους, χωρίς συγκεκριμένο στόχο, με ϕαινομενικά τυχαίο τρόπο. Παράλληλα, ϕτι- άχνουν μοντέλα μετάβασης, με τα οποία μπορούν να προβλέπουν τις αλλαγές που επιϕέρουν οι πράξεις τους στο περιβάλλον τους. Τα μοντέλα αυτά τα χρησιμοποιούν αργότερα για να μάθουν γρηγορότερα νέες δεξιότητες. Σε αυτή τη διαδικασία τις περισσότερες ϕορές απουσιάζει κάποια άμεση επίβλεψη που κατευθύνει τη μάθηση. Αντίθετα, η μάθηση στηρίζεται περισσότερο στα ε- σωτερικά κίνητρα των οργανισμών και στα δομικά χαρακτηριστικά των αισθητήριων οργάνων τους. Έτσι προκύπτει ένα θεμελιώδες ερευνητικό ερώτημα: Μπορεί, παρόμοια, ένα ρομπότ να ανα- πτύξει μια κατανόηση του περιβάλλοντος του αξιοποιώντας μόνο την ικανότητα του να αλληλε- πιδρά με αυτό, χωρίς εκ των προτέρων γνώση, ή εξωτερική επίβλεψη. Στη παρούσα διπλωματική εργασία εξετάζουμε πώς τεχνητοί δράστες μπορούν να εξερευνήσουν και να μάθουν το περιβάλ- λον τους αυτόνομα, βασιζόμενοι σε εσωτερικά κίνητρα. Προτείνουμε, λοιπόν, μια νέα, πλήρως αυτο-επιβλεπόμενη και αντικειμενο-κεντρική προσέγ- γιση. Το σύστημα μας πρώτα διακρίνει το χώρο του σε διακριτές οντότητες-αντικείμενα χρη- σιμοποιώντας αυτο-επιβλεπόμενους και αντικειμενο-κεντρικούς αλγορίθμους όρασης υπολογι- στών πάνω σε δεδομένα που έχουν συλλεχθεί από τυχαίες δράσεις ενός ρομποτικού βραχίονα. Στη συνέχεια, ένα μοντέλο μετάβασης βασισμένο σε γράϕους εκπαιδεύεται να προβλέπει τις μελ- λοντικές καταστάσεις των οντοτήτων αυτών. Ωστόσο, λόγω της περιορισμένης ποικιλίας των δεδομένων που βασίζονται σε τυχαίες δράσεις, το μοντέλο μετάβασης αδυνατεί να προβλέψει σωστά την κίνηση των αντικειμένων. Για αυτό, σχεδιάζουμε ένα σήμα επιβράβευσης που βασίζεται στο σϕάλμα πρόβλεψης του μοντέλου μετάβασης. Πάνω σε αυτό το σήμα εκπαιδεύουμε μια πολιτική η οποία τελικά προτείνει πιο ενδιαϕέρουσες δράσεις στο βραχίονα, δράσεις που προκαλούν τρεις ϕορές περισσότερη κίνηση των αντικειμένων σε σύγκριση με τις τυχαίες. Τέλος, εκπαιδεύουμε περαιτέρω τα μο- ντέλα όρασης και μετάβασης χρησιμοποιώντας νέα δεδομένα που συλλέγουμε με την νέα πο- λιτική. Τα μοντέλα τώρα παρουσιάζουν βελτίωση τόσο στην ικανότητα αναπαράστασης και ανακατασκευής του χώρου όσο και στην ικανότητα πρόβλεψης τις κίνησης των αντικειμένων. Επαληθεύουμε την μέθοδο μας σε ένα περιβάλλον προσομοίωσης και δείχνουμε ότι μέσω της αυτο-επιβλεπόμενης αλληλεπίδρασης μπορούν τελικά να προκύψουν χρήσιμες οπτικές α- ναπαραστάσεις. Η παρούσα διπλωματική αποτελεί ένα ακόμα παράδειγμα του πως η μελέτη της νόησης όπως συναντάται στη βιολογία, αλλά και της αναπτυξιακής ψυχολογίας μπορούν να συνεισϕέρουν στη σχεδίαση και τη βελτίωση των συστημάτων τεχνητής νοημοσύνης. Συγκε-κριμένα, δείχνουμε ότι η αντικειμενο-κεντρική μάθηση, βασισμένη σε εσωτερικά κίνητρα μπορεί να συνεισϕέρει στην αυτόνομη ανάπτυξη συστημάτων κατανόησης του κόσμου. Τα συστήματα αυτά θα είναι σε θέση να αναπτύσσονται διαρκώς και αυτόνομα σε νέα περιβάλλοντα. Τμήμα της εργασίας έγινε δεκτό στο συνέδριο της IEEE, International Conference on De- velopment and Learning (ICDL) Prague, 2025 με τίτλο "Push, See, Predict | el |
| heal.advisorName | Maragos, Petros | |
| heal.committeeMemberName | Maragos, Petros | |
| heal.committeeMemberName | Potamianos, Gerasimos | |
| heal.committeeMemberName | Kordonis, Ioannis | |
| heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. | el |
| heal.academicPublisherID | ntua | |
| heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: