HEAL DSpace

Discovering approaches for social video question answering using deep learning

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Sartzetaki, Christina en
dc.contributor.author Σαρτζετάκη, Χριστίνα el
dc.date.accessioned 2022-11-18T10:08:14Z
dc.date.available 2022-11-18T10:08:14Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56162
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.23860
dc.rights Default License
dc.subject Βαθειά Μάθηση el
dc.subject Κοινωνικές ενδείξεις el
dc.subject Ανίχνευση βλέμματος el
dc.subject Ανίχνευση συναισθήματος el
dc.subject Επεξεργασία Φυσικής Γλώσσας el
dc.subject Deep Learning en
dc.subject Video Question Answering en
dc.subject Social reasoning en
dc.subject Compositional Attention Networks en
dc.subject BERT en
dc.title Discovering approaches for social video question answering using deep learning en
dc.title Ανακαλύπτοντας Προσεγγίσεις για Αυτόματη Απάντηση Ερωτήσεων Κοινωνικού Περιεχομένου σε Βίντεο με χρήση Βαθειάς Μάθησης el
heal.type bachelorThesis
heal.classification Machine Learning en
heal.classification Μηχανική Μάθηση el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-06-14
heal.abstract Humans are social creatures; our survival and well-being depends on our effective communica- tion with others. This is achieved through perceiving and understanding information from multiple sensory modalities as well as reasoning and arriving to conclusions, in order to respond accordingly. Social Video Question Answering is a Machine Learning task to test the social reasoning abilities of an AI agent, based on how accurately it can answer questions on a given video. It can require sophisticated combinations of emotion recognition, language understanding, cultural knowledge, logical and causal reasoning, on top of non-social layers of comprehension about physical events. In this Diploma Thesis, we focus on discovering different approaches for Social Video Question Answering that leverage Deep Learning methods, through building on previous work in different fields such as Computer Vision and Natural Language Processing. We take two distinct approaches in the course of our research. In the first part of our work, we propose a novel deep architecture for the task of reasoning about social interactions in videos. We leverage the multi-step reasoning capabilities of Compositional Attention Networks (MAC) [1], and propose a multimodal extension (MAC-X). MAC-X is based on a recurrent cell that performs iterative mid-level fusion of input modalities (visual, auditory, text) over multiple reasoning steps, by use of a temporal attention mechanism. We then combine MAC-X with LSTMs for temporal input processing in an end-to-end architecture. Our ablation studies show that the proposed MAC-X architecture can effectively leverage multimodal input cues using mid-level fusion mechanisms. We apply MAC-X to the task of Social Video Question Answering in the Social IQ dataset [2] and obtain a 2.5% absolute improvement in terms of binary accuracy over the current state-of-the-art. In the second part of our work, we follow the direction of question answering on video captioning, which we obtain through augmentation of the dialogue transcripts with explicit social cues detection information, namely emotional eye-gaze information. This is the first time, to the best of our knowledge, that a feature extraction pipeline specifically designed for social video is proposed, standing in as a general framework for leveraging social information in video. We experiment with different natural language caption generation methods from an intermediate graph structure, and provide ablation studies for several BERT [3]-like language models and fine-tuning levels, as well as a hierarchical summary scheme based on question conditioning via extractive question answering. We apply our method to the Social IQ dataset [2] and obtain significant improvements over the baselines. en
heal.abstract Οι άνθρωποι είμαστε κοινωνικά πλάσματα, και η επιβίωση και ευημερία μας εξαρτάται από την αποτελεσματική επικοινωνία μας με τους άλλους. Αυτή επιτυγχάνεται μέσω της κατανόησης πληρο- φοριών από πολλαπλές αισθητηριακές πηγές καθώς και με τη χρήση λογικής για την εξαγωγή συμπερασ- μάτων, προκειμένου να ανταποκριθούμε ανάλογα. Το Social Video Question Answering είναι μια εφαρμογή Μηχανικής Μάθησης για τον έλεγχο των ικανοτήτων κοινωνικής συλλογιστικής ενός πράκ- τορα τεχνητής νοημοσύνης, που βασίζεται στο κατά πόσο μπορεί να απαντήσει σε ερωτήσεις πάνω σε ένα δεδομένο βίντεο. Μπορεί να απαιτεί περίπλοκους συνδυασμούς αναγνώρισης συναισθημάτων, γλωσσικής κατανόησης, και λογικής και συλλογιστικής σκέψης. Σε αυτή τη Διπλωματική Εργασία, εστιάζουμε στον εντοπισμό διαφορετικών προσεγγίσεων για Social Video Question Answering με χρήση Βαθειάς Μάθησης, μέσα από την αξιοποίηση προηγού- μενων εργασιών σε διαφορετικούς τομείς όπως η ́Οραση ́Υπολογιστών και η Επεξεργασία Φυσικής Γλώσσας. Κατά τη διάρκεια της έρευνάς μας ακολουθήσαμε δύο διαφορετικές προσεγγίσεις. Στο πρώτο μέρος της εργασίας μας, αξιοποιούμε τις δυνατότητες συλλογιστικής πολλαπλών βη- μάτων του Compositional Attention Networks (MAC) και προτείνουμε μια πολυτροπική επέκταση (MAC-X). Το MAC-X βασίζεται σε ένα αναδρομικό κελί που εκτελεί επαναληπτική συγχώνευση μεσαίου επιπέδου τροπικοτήτων εισόδου (οπτική, ακουστική, κείμενο) σε πολλαπλά στάδια συλλογισ- μού, χρησιμοποιώντας έναν μηχανισμό χρονικής προσοχής. Στη συνέχεια συνδυάζουμε το MAC-X με LSTM για επεξεργασία χρονικής εισόδου σε μια αρχιτεκτονική από άκρο σε άκρο. Οι συγκρι- τικές μελέτες μας δείχνουν ότι η προτεινόμενη αρχιτεκτονική MAC-X μπορεί να αξιοποιήσει αποτε- λεσματικά τα πολυτροπικά στοιχεία εισόδου χρησιμοποιώντας μηχανισμούς συγχώνευσης μεσαίου επιπέδου. Εφαρμόζουμε το MAC-X στο σύνολο δεδομένων Social IQ και επιτυγχάνουμε απόλυτη βελτίωση 2,5% όσον αφορά τη δυαδική ακρίβεια σε σχέση με την τρέχουσα κατάσταση αιχμής. Στο δεύτερο μέρος της εργασίας μας, ακολουθούμε την κατεύθυνση της απάντησης ερωτήσεων μέσα από περιγραφές βίντεο, που λαμβάνουμε μέσω της ενίσχυσης των διαλόγων με πληροφορίες από την ανίχνευση κοινωνικών ενδείξεων, συγκεκριμένα συναισθηματικές πληροφορίες για το βλέμμα. Αυτή είναι η πρώτη φορά, εξ όσων γνωρίζουμε, που προτείνεται ένα τέτοιο σύστημα εξαγωγής χαρακ- τηρισ τικών ειδικά σχεδιασμένο για κοινωνικά βίντεο. Πειραματιζόμασ τε με διαφορετικές μεθόδους δημιουργίας περιγραφής φυσικής γλώσσας από μια ενδιάμεση δομή γραφήματος και παρέχουμε συγ- κριτικές μελέτες για διαφορετικά μοντέλα τύπου BERT και επίπεδα εκπαίδευσης. Εφαρμόζουμε τη μέθοδό μας στο σύνολο δεδομένων Social IQ και επιτυγχάνουμε σημαντικές βελτιώσεις σε σχέση με τη βασική απόδοση. el
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Κατσαμάνης, Αθανάσιος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 109 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής