HEAL DSpace

Enhancing video question answering with the use of scene graphs

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Brilli, Dionysia Danai en
dc.contributor.author Μπρίλλη, Διονυσία Δανάη el
dc.date.accessioned 2024-07-15T09:11:07Z
dc.date.available 2024-07-15T09:11:07Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59915
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.27611
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Απάντηση ερωτήσεων σε βίντεο el
dc.subject Γράφοι Σκηνής el
dc.subject Νευρωνικά Δίκτυα Γραφών el
dc.subject Βαθιά Μάθηση el
dc.subject Action Genome Question Answering el
dc.subject Video Question Answering en
dc.subject Scene Graphs en
dc.subject Graph Neural Networks en
dc.subject Deep Learning en
dc.subject Action Genome Question Answering en
dc.title Enhancing video question answering with the use of scene graphs en
heal.type bachelorThesis
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-03-28
heal.abstract Στη σύγχρονη εποχή της ψηφιακής επανάστασης, με την εκθετική αύξηση του περιεχομένου σε βίντεο, είναι πλέον επιτακτική η ανάγκη για αποτελεσματική κατανόηση και ερμηνεία των βίντεο, κάτι ζωτικής σημασίας για πολλές εφαρμογές. Η απάντηση ερωτήσεων σε βίντεο (Video Question Answering) είναι ένα πολύπλοκο πρόβλημα που απαιτεί βαθιά κατανόηση τόσο του οπτικού περιεχομένου όσο και των φυσικών γλωσσικών ερωτήσεων. Παρόλο που έρευνες παρουσιάζουν συνεχή πρόοδο, οι περισσότερες δουλειές μέχρι σήμερα έχουν επικεντρωθεί σε μεθόδους που βασίζονται σε εικονοστοιχεία (pixel), ενώ συχνά δυσκολεύονται να αποτυπώσουν αποτελεσματικά τις πολύπλοκες σχέσεις και δυναμικές εντός του βίντεο. Η παρατήρηση της συμπεριφοράς των μοντέλων αυτών έχει αναδείξει αυτόν τον περιορισμό και την ανάγκη για την ανάπτυξη πιο αποτελεσματικών και με επίγνωση του περιεχομένου συστημάτων Video Question Answering. Η παρούσα εργασία παρουσιάζει μία νέα προσέγγιση προς αυτή την κατεύθυνση με την ενσωμάτωση των γράφων σκηνής με μία ιεραρχική προσέγγιση για την πιο αποτελεσματική απάντηση ερωτήσεων σε βίντεο. Οι γράφοι σκηνής παρέχουν μία δομημένη αναπαράσταση των οπτικών στοιχείων μέσα σε ένα βίντεο και των μεταξύ τους σχέσεων, προσφέροντας μία πλούσια σημασιολογική βάση για την κατανόηση σύνθετων βίντεο. Μετατρέποντας την ανάλυση βίντεο από τον χώρο των πίξελ στον χώρο των γράφων, δίνουμε τη δυνατότητα αποτελεσματικότερης και σημασιολογικά πλούσιας επεξεργασίας βίντεο. Προτείνουμε μία αρχιτεκτονική που αξιοποιεί τους γράφους σκηνής, χρησιμοποιώντας Νευρωνικά Δίκτυα Γράφων (GNNs) για την επεξεργασία των γράφων σκηνής, μαζί με ένα ιεραρχικό μοντέλο που λειτουργεί σε διαφορετικά επίπεδα του βίντεο, από μεμονωμένα κλιπ, έως και ολόκληρο το βίντεο για να επιτρέψει πιο ολοκληρωμένη κατανόηση του βίντεο. Η ενσωμάτωση των GNNs επιτρέπει την εξαγωγή σημαντικών πληροφοριών για τους γράφους, αποτυπώνοντας τις σχέσεις και τα χαρακτηριστικά των οπτικών στοιχείων. Το ιεραρχικό μοντέλο, που λειτουργεί σε διαφορετικά επίπεδα, διασφαλίζει ότι λαμβάνονται υπόψη τόσο οι λεπτομέρειες όσο και το ευρύτερο περιεχόμενο, οδηγώντας σε βαθύτερη κατανόηση του βίντεο. Έτσι, παρουσιάζουμε μία μέθοδο που(1) Ξεκινά με την εξαγωγή γράφων σκηνής από επιλεγμένα κλιπ βίντεο (2) Δημιουργεί διανύσματα χαρακτηριστικών με τη χρήση GNNs και (3) Ενσωματώνει τα διανύσματα χαρακτηριστικών σε ένα ιεραρχικό μοντέλο Αξιολογούμε τη μέθοδό μας στο Action Genome Question Answering Dataset, ένα σύνολο δεδομένων πραγματικού κόσμου που απεικονίζει ανθρώπους σε καθημερινές δραστηριότητες. Τα αποτελέσματά μας δείχνουν ότι η προσέγγισή μας είναι μεταξύ των state-of-the-art μεθόδων, ενώ μάλιστα υπερτερεί σε συγκεκριμένες κατηγορίες ερωτήσεων. Η προσέγγισή μας είναι ένα βήμα προς πιο αποδοτικά και με επίγνωση του περιεχομένου συστήματα Video Question Answering, επιτρέποντας πιο ακριβείς και με ουσία απαντήσεις σε ερωτήσεις φυσικής γλώσσας σχετικά με βίντεο. Εν κατακλείδι, η παρούσα εργασία παρουσιάζει μία νέα προσέγγιση για την απάντηση ερωτήσεων σε βίντεο, η οποία επικεντρώνεται στην αποτελεσματική κατανόηση και ερμηνεία των βίντεο. Η προσέγγισή μας είναι η πρώτη, εξ όσων γνωρίζουμε, που χρησιμοποιεί γράφους σκηνής μαζί με ιεραρχική προσέγγιση για το πρόβλημα του Video Question Answering, ενώ ακόμα τα αποτελέσματά μας αποδεικνύουν την αποτελεσματικότητα της προσέγγισής μας σε σενάρια πραγματικού κόσμου. Πειραματιζόμαστε ακόμα με διαφορετικές μεθόδους επεξεργασίας των γράφων σκηνής αλλά και επίπεδα του ιεραρχικού μοντέλου, παρέχοντας πληροφορίες σχετικά με την αποτελεσματικότητα διαφορετικών αρχιτεκτονικών. el
heal.abstract In the digital era, with the exponential growth in video content, efficiently understanding and interpreting videos has become crucial for numerous applications. Video Question Answering (VQA) is a complex task that requires deep understanding of both visual content and natural language queries.While works have continually shown progress, most of the advances to date have focused on pixel-based methods, often struggling to capture the intricate relationships and dynamics within video content effectively. Observing the behavior of state-of-the-art models has underscored this limitation and the necessity to develop more efficient and context-aware Video Question Answering systems. This thesis presents a novel approach towards this direction by integrating Scene Graphs with a Hierarchical Conditional Approach to efficiently answer questions about Videos. Scene graphs provide a structured representation of the visual elements within a video and their interrelations, offering a rich semantic foundation for understanding complex video data. By transforming the video analysis from pixel to graph space we enable more efficient and semantically rich video processing. We propose an architecture that leverages scene graphs, utilizes Graph Neural Networks (GNNs) for processing scene graphs, alongside a hierarchical model that operates at different levels of video granularity, from individual clips to the entire video, to enable a comprehensive understanding of video content. The integration of GNNs allows for the extraction of meaningful graph embeddings that capture the relationships and attributes of the visual elements, leading to a deeper understanding of the video content. The hierarchical model, operating at different levels, ensures that both the details and the broader context are considered, leading to a more holistic understanding of the video content. So, we introduce a methodology that (1) Begins with the extraction of scene graphs from selected video frames, (2) Generates graph embeddings using GNNs and (3) Incorporates the graph embeddings into a hierarchical model We evaluate our method on the Action Genome Question Answering Dataset, a real-world dataset consisting of videos depicting humans in everyday activities. Our results demonstrate that our approach is among state-of-the-art methods, and even outperforms them in several question categories. Our approach is a step towards more efficient and context-aware Video Question Answering systems, enabling more accurate and meaningful responses to natural language queries about videos. In conclusion, this study presents a novel approach to Video Question Answering, focusing on the efficient understanding and interpretation of videos. Our approach is the first to our knowledge to use scene graphs along with a hierarchical conditional approach for Video Question Answering, and our results demonstrate the effectiveness of our approach in real-world scenarios. We also experiment with different graph processing methods and levels of the hierarchical model, providing insights into the effectiveness of different architectures. en
heal.advisorName Maragos, Petros en
heal.committeeMemberName Maragos, Petros en
heal.committeeMemberName Rontogiannis, Athanasios en
heal.committeeMemberName Kordonis, Ioannis en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 133 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα