Discovering approaches for social video question answering using deep learning

Sartzetaki, Christina; Σαρτζετάκη, Χριστίνα

dc.contributor.author	Sartzetaki, Christina	en
dc.contributor.author	Σαρτζετάκη, Χριστίνα	el
dc.date.accessioned	2022-11-18T10:08:14Z
dc.date.available	2022-11-18T10:08:14Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/56162
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.23860
dc.rights	Default License
dc.subject	Βαθειά Μάθηση	el
dc.subject	Κοινωνικές ενδείξεις	el
dc.subject	Ανίχνευση βλέμματος	el
dc.subject	Ανίχνευση συναισθήματος	el
dc.subject	Επεξεργασία Φυσικής Γλώσσας	el
dc.subject	Deep Learning	en
dc.subject	Video Question Answering	en
dc.subject	Social reasoning	en
dc.subject	Compositional Attention Networks	en
dc.subject	BERT	en
dc.title	Discovering approaches for social video question answering using deep learning	en
dc.title	Ανακαλύπτοντας Προσεγγίσεις για Αυτόματη Απάντηση Ερωτήσεων Κοινωνικού Περιεχομένου σε Βίντεο με χρήση Βαθειάς Μάθησης	el
heal.type	bachelorThesis
heal.classification	Machine Learning	en
heal.classification	Μηχανική Μάθηση	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-06-14
heal.abstract	Humans are social creatures; our survival and well-being depends on our effective communica- tion with others. This is achieved through perceiving and understanding information from multiple sensory modalities as well as reasoning and arriving to conclusions, in order to respond accordingly. Social Video Question Answering is a Machine Learning task to test the social reasoning abilities of an AI agent, based on how accurately it can answer questions on a given video. It can require sophisticated combinations of emotion recognition, language understanding, cultural knowledge, logical and causal reasoning, on top of non-social layers of comprehension about physical events. In this Diploma Thesis, we focus on discovering different approaches for Social Video Question Answering that leverage Deep Learning methods, through building on previous work in different fields such as Computer Vision and Natural Language Processing. We take two distinct approaches in the course of our research. In the first part of our work, we propose a novel deep architecture for the task of reasoning about social interactions in videos. We leverage the multi-step reasoning capabilities of Compositional Attention Networks (MAC) [1], and propose a multimodal extension (MAC-X). MAC-X is based on a recurrent cell that performs iterative mid-level fusion of input modalities (visual, auditory, text) over multiple reasoning steps, by use of a temporal attention mechanism. We then combine MAC-X with LSTMs for temporal input processing in an end-to-end architecture. Our ablation studies show that the proposed MAC-X architecture can effectively leverage multimodal input cues using mid-level fusion mechanisms. We apply MAC-X to the task of Social Video Question Answering in the Social IQ dataset [2] and obtain a 2.5% absolute improvement in terms of binary accuracy over the current state-of-the-art. In the second part of our work, we follow the direction of question answering on video captioning, which we obtain through augmentation of the dialogue transcripts with explicit social cues detection information, namely emotional eye-gaze information. This is the first time, to the best of our knowledge, that a feature extraction pipeline specifically designed for social video is proposed, standing in as a general framework for leveraging social information in video. We experiment with different natural language caption generation methods from an intermediate graph structure, and provide ablation studies for several BERT [3]-like language models and fine-tuning levels, as well as a hierarchical summary scheme based on question conditioning via extractive question answering. We apply our method to the Social IQ dataset [2] and obtain significant improvements over the baselines.	en
heal.abstract	Οι άνθρωποι είμαστε κοινωνικά πλάσματα, και η επιβίωση και ευημερία μας εξαρτάται από την αποτελεσματική επικοινωνία μας με τους άλλους. Αυτή επιτυγχάνεται μέσω της κατανόησης πληρο- φοριών από πολλαπλές αισθητηριακές πηγές καθώς και με τη χρήση λογικής για την εξαγωγή συμπερασ- μάτων, προκειμένου να ανταποκριθούμε ανάλογα. Το Social Video Question Answering είναι μια εφαρμογή Μηχανικής Μάθησης για τον έλεγχο των ικανοτήτων κοινωνικής συλλογιστικής ενός πράκ- τορα τεχνητής νοημοσύνης, που βασίζεται στο κατά πόσο μπορεί να απαντήσει σε ερωτήσεις πάνω σε ένα δεδομένο βίντεο. Μπορεί να απαιτεί περίπλοκους συνδυασμούς αναγνώρισης συναισθημάτων, γλωσσικής κατανόησης, και λογικής και συλλογιστικής σκέψης. Σε αυτή τη Διπλωματική Εργασία, εστιάζουμε στον εντοπισμό διαφορετικών προσεγγίσεων για Social Video Question Answering με χρήση Βαθειάς Μάθησης, μέσα από την αξιοποίηση προηγού- μενων εργασιών σε διαφορετικούς τομείς όπως η ́Οραση ́Υπολογιστών και η Επεξεργασία Φυσικής Γλώσσας. Κατά τη διάρκεια της έρευνάς μας ακολουθήσαμε δύο διαφορετικές προσεγγίσεις. Στο πρώτο μέρος της εργασίας μας, αξιοποιούμε τις δυνατότητες συλλογιστικής πολλαπλών βη- μάτων του Compositional Attention Networks (MAC) και προτείνουμε μια πολυτροπική επέκταση (MAC-X). Το MAC-X βασίζεται σε ένα αναδρομικό κελί που εκτελεί επαναληπτική συγχώνευση μεσαίου επιπέδου τροπικοτήτων εισόδου (οπτική, ακουστική, κείμενο) σε πολλαπλά στάδια συλλογισ- μού, χρησιμοποιώντας έναν μηχανισμό χρονικής προσοχής. Στη συνέχεια συνδυάζουμε το MAC-X με LSTM για επεξεργασία χρονικής εισόδου σε μια αρχιτεκτονική από άκρο σε άκρο. Οι συγκρι- τικές μελέτες μας δείχνουν ότι η προτεινόμενη αρχιτεκτονική MAC-X μπορεί να αξιοποιήσει αποτε- λεσματικά τα πολυτροπικά στοιχεία εισόδου χρησιμοποιώντας μηχανισμούς συγχώνευσης μεσαίου επιπέδου. Εφαρμόζουμε το MAC-X στο σύνολο δεδομένων Social IQ και επιτυγχάνουμε απόλυτη βελτίωση 2,5% όσον αφορά τη δυαδική ακρίβεια σε σχέση με την τρέχουσα κατάσταση αιχμής. Στο δεύτερο μέρος της εργασίας μας, ακολουθούμε την κατεύθυνση της απάντησης ερωτήσεων μέσα από περιγραφές βίντεο, που λαμβάνουμε μέσω της ενίσχυσης των διαλόγων με πληροφορίες από την ανίχνευση κοινωνικών ενδείξεων, συγκεκριμένα συναισθηματικές πληροφορίες για το βλέμμα. Αυτή είναι η πρώτη φορά, εξ όσων γνωρίζουμε, που προτείνεται ένα τέτοιο σύστημα εξαγωγής χαρακ- τηρισ τικών ειδικά σχεδιασμένο για κοινωνικά βίντεο. Πειραματιζόμασ τε με διαφορετικές μεθόδους δημιουργίας περιγραφής φυσικής γλώσσας από μια ενδιάμεση δομή γραφήματος και παρέχουμε συγ- κριτικές μελέτες για διαφορετικά μοντέλα τύπου BERT και επίπεδα εκπαίδευσης. Εφαρμόζουμε τη μέθοδό μας στο σύνολο δεδομένων Social IQ και επιτυγχάνουμε σημαντικές βελτιώσεις σε σχέση με τη βασική απόδοση.	el
heal.advisorName	Ποταμιάνος, Αλέξανδρος	el
heal.advisorName	Potamianos, Alexandros	en
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Κατσαμάνης, Αθανάσιος	el
heal.committeeMemberName	Ποταμιάνος, Αλέξανδρος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	109 σ.	el
heal.fullTextAvailability	false