HEAL DSpace

Νευρο-συμβολική απάντηση οπτικών ερωτήσεων για την κατανόηση αλληλεπιδράσεων και επεξήγηση δυναμικών σκηνών

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σαμψάκης-Μπακόπουλος, Μύρων el
dc.contributor.author Sampsakis-Bakopoulos, Myron en
dc.date.accessioned 2021-05-28T19:46:40Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/53519
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21217
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Visual question answering en
dc.subject Neuro-Symbolic en
dc.subject Machine learning en
dc.subject Natural language processing en
dc.subject Computer vision en
dc.subject Όραση υπολογιστών el
dc.subject Απάντηση οπτικών ερωτήσεων el
dc.subject Μηχανική μάθηση el
dc.subject Νευρο-συμβολικό el
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.title Νευρο-συμβολική απάντηση οπτικών ερωτήσεων για την κατανόηση αλληλεπιδράσεων και επεξήγηση δυναμικών σκηνών el
dc.title Neuro-Symbolic Visual Question Answering for Physical Interaction Understanding and Dynamic Scene Interpretation en
heal.type masterThesis
heal.classification Μηχανική Μάθηση el
heal.classification Machine Learning en
heal.dateAvailable 2022-05-27T21:00:00Z
heal.language en
heal.access embargo
heal.recordProvider ntua el
heal.publicationDate 2021-03-29
heal.abstract Η αυτόματη απάντηση οπτικών ερωτήσεων (VQA), είναι ένας τομέας της Μηχανικής Μάθησης που συνδυάζει οντότητες όπως η Επεξεργασία Φυσικής Γλώσσας και η ΄Οραση Υπολογιστών. Τα προβλήματα VQA δίνονται συνήθως με τη μορφή μιας εικόνας ή ενός βίντεο, που συνοδεύεται από μια ερώτηση, με σκοπό την αυτοματοποιημένη απάντηση σε μορφή Φυσικής Γλώσσας. Οι απαντήσεις μπορούν είτε να επιλεχθούν με τη μορφή ταξινόμησης κάποιων προεπιλεγμένων απαντήσεων, είτε να δημιουργηθούν σε ανοιχτή μορφή από κάποια αντίστοιχη αρχιτεκτονική. Παρότι οι παραπάνω αναφερθείσες μέθοδοι έχουν αποδειχθεί λειτουργικές, τις περισσότερες φορές απαιτούν μεγάλη ποσότητα δεδομένων, με τις τελικές ακρίβειές τους να περνάνε κατά λίγες ποσοστιαίες μονάδες την ακρίβεια αναφοράς. Ο σκοπός αυτής της Μεταπτυχιακής Εργασίας είναι να ακολουθήσει μια διαφορετική σκοπιά, που θα αξιοποιεί Νευρο-Συμβολικές αρχιτεκτονικές, οι οποίες συνδυάζουν νευρωνικά δίκτυα και συμβολική συλλογιστική (βάσει κανόνων) με σκοπό να εκπαιδεύσουν, αλλά και να συμπεράνουν απαντήσεις με πολύ λιγότερα δεδομένα και με σημαντικά αυξημένη ακρίβεια, ακόμα και απο περίπλοκες χρονικά εξαρτώμενες ερωτήσεις. Η Μεταπτυχιακή αυτή Εργασία ασχολείται με την πρόταση ενός νέου σέτ δεδομένων, που στοχεύει στο να αντιμετωπισθούν τα προαναφερθέντα προβλήματα, αλλά και την ανάπτυξη ενός συνολικού μοντέλου εκπαιδευμένου στο σέτ αυτό, με σκοπό την αξιολόγηση Νευρο-Συμβολικών προσεγγίσεων σε προβλήματα VQA. Το σετ δεδομένων αποτελείται από στοχαστικά γεννημένων ψευδο-τρισδιάστατων προσομοιώσεων φυσικής με μεταβλητό αριθμό μπαλών, που αλληλεπιδρούν με τοίχους, άλλες μπάλες, εμπόδια και βαρυτικά πεδία, καθώς και έναν αριθμό ερωτήσεων που σχετίζονται με τα γεγονότα αυτά. Ο σκοπός του συνολικού μοντέλου είναι να μπορεί να αντιληφθεί τις αλληλεπιδράσεις που λαμβάνουν χώρα στην προσομοίωση, και να απαντήσει στις ερωτήσεις αυτές. Το μοντέλο αποτελείται από έναν ερμηνευτή καρέ, ο οποίος υλοποιεί κατά κανόνα ένα MaskRCNN, έναν δυναμικό αντιληπτή γεγονότων που αξιοποιεί ένα PropNet, ένα ακολουθιακό μοντέλο που μεταφράζει τις ερωτήσεις σε φυσική γλώσσα σε μια ακολουθία συμβολικών εντολών και τέλος, έναν συμβολικό εκτελεστή, με σκοπό να εξάγει απαντήσεις σε φυσική γλώσσα από την έξοδο του δυναμικού αντιληπτή αξιοποιώντας τις συμβολικές αυτές εντολές. Επιπροσθέτως, αναπτύσσονται και ορισμένες επεκτάσεις που επιτρέπουν την κατανόηση δυναμικής συμπεριφοράς όπως η πρόβλεψη μάζας και η εκτίμηση επιπέδου και είδους τριβής. Το προτεινόμενο μοντέλο εκπαιδεύεται και ελέγχεται επάνω στο σετ δεδομένων. Αυτή η προσέγγιση εξαλείφει την χρήση γλωσσικών πρότερων και προσφέρει ακρίβειες πέραν των προσδοκιών στα συνολικά τελικά VQA αποτελέσματα, ειδικά όταν λαμβάνεται υπόψιν και το σχετικά περιορισμένο μέγεθος του σετ δεδομένων, αλλά και οι λίγοι υπολογιστικοί πόροι που χρησιμοποιήθηκαν. Εκτός από την συνολική επίδοση, η επίδοση και κάθε αυτοτελούς μέρους ελέγχεται ξεχωριστά με σκοπό τον περαιτέρω έλεγχο των πλεονεκτημάτων και των αδυναμιών του καθενός. el
heal.abstract Visual Question Answering (VQA) is a task of Machine Learning that combines aspects of Natural Language Processing and Computer Vision. VQA tasks are usually given in the form of an image or a video that is accompanied by a question, with the aim of producing Natural Language answers. The answers can be chosen in the form of a classification problem, or generated by another network in an open-ended form. While the above conventional methods have been proven to work, they will at most times require a lot of data, and their accuracies will surpass baselines only by a small percentage. The goal of this Master Thesis is to follow a different approach that will utilize Neuro-Symbolic architectures, which combine Neural Networks along with Symbolic reasoning in order to train and infer answers with much less data, and far higher accuracy from even complicated, temporal questions. This Master Thesis is concerned with the proposal of a novel dataset aimed to tackle issues like the ones mentioned above, as well as the development of an ensemble model trained in that dataset, aimed to evaluate the performance of Neuro-Symbolic approaches on VQA tasks. The dataset consists of a procedurally generated pseudo-3D physics simulations of a variable number of balls, that interact with walls, other balls, obstacles and gravity fields, as well as a number of questions regarding said events. The aim of the ensemble model is to be able to understand the interactions that take place within each simulation, and answer these questions. The ensemble model consists of a frame interpreter in the form of a MaskRCNN, a Dynamics Predictor that utilizes a PropNet, a sequence-to-sequence model aimed to translate the Natural Language questions into series of symbolic commands and finally a Symbolic Executor, aimed to extract Natural language responses from the output of the Dynamics Predictor by utilizing the symbolic commands. Additionally, some extensions that further allow the understanding of scene dynamics, such as mass of objects and friction estimation are developed and paired with the above modules. The proposed model is trained and tested upon the new dataset. This approach eliminates the existence of prior language biases, and provides beyond expected accuracies in the end-to-end VQA tasks, especially when taking into account the limited dataset size used for training, as well as the rather small computational resources used for training and inference. Apart from end-toend performance, each modules performance is evaluated separately, in order to further test the strengths and weaknesses of each module. en
heal.advisorName Παπαγεωργίου, Χάρης el
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.advisorName Papageorgiou, Haris en
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Παπαγεωργίου, Χάρης el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Σταφυλοπάτης, Αντρέας el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 151 σ el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα