HEAL DSpace

Η αναγνώριση και η επιχώρια προσαρμογή οπτικοακουστικών γεγονότων με τεχνικές μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μάκαρης, Νικόλαος el
dc.contributor.author Makaris, Nikolaos en
dc.date.accessioned 2023-06-07T08:15:46Z
dc.date.available 2023-06-07T08:15:46Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57802
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25499
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Αναγνώριση οπτικοακουστικών συμβάντων el
dc.subject Εντοπισμός συμβάντων el
dc.subject Πολυτροπική σύντηξη el
dc.subject Προεκπαιδευμένα μοντέλα el
dc.subject Εξαγωγή χαρακτηριστικών γνωρισμάτων el
dc.subject Audio-visual event recognition en
dc.subject Event localization en
dc.subject Pre-trained models en
dc.subject Multimodal fusion en
dc.subject Pre-trained models en
dc.subject Feature extraction en
dc.title Η αναγνώριση και η επιχώρια προσαρμογή οπτικοακουστικών γεγονότων με τεχνικές μηχανικής μάθησης el
dc.title Recognition and localization of audio-visual events with machine learning techniques en
heal.type masterThesis
heal.secondaryTitle Recognition and localization of audio-visual events with machine learning technique en
heal.classification Machine learning en
heal.classification Audio-Visual en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-03-17
heal.abstract Η αναγνώριση οπτικοακουστικών γεγονότων και η επιχώρια προσαρμογή είναι ένα δύσκολο έργο που περιλαμβάνει την αναγνώριση γεγονότων που είναι τόσο ορατά όσο και ηχητικά σε ένα βίντεο. Σε αυτήν τη μελέτη, προτείνουμε μια καινοτόμο προσέγγιση για την αντιμετώπιση αυτής της πρόκλησης χρησιμοποιώντας έναν οπτικοακουστικό μηχανισμό οπτικής προσοχής για τη διερεύνηση οπτικοακουστικών συσχετίσεων και τη χρήση ενός διπλού πολυτροπικού δικτύου υπολειπόμενων εκπομπών (DMRN) για τη σύντηξη πληροφοριών μεταξύ των δύο τρόπων. Η μεθοδολογία μας περιλαμβάνει την εξαγωγή χαρακτηριστικών (οπτικοακουστικών ή οπτικών) από διάφορα προ-εκπαιδευμένα μοντέλα, τα οποία έχουν αναπτυχθεί για εργασίες όπως αναγνώριση εικόνας ή αναγνώριση ήχου. Στη συνέχεια ορίζουμε καινοτόμες αρχιτεκτονικές για τα πολυτροπικά δίκτυα, με στόχο τον αποτελεσματικό εντοπισμό των γεγονότων-στόχων στα οπτικοακουστικά δεδομένα. Για να αξιολογήσουμε την απόδοση της προτεινόμενης προσέγγισής μας, την εφαρμόζουμε στο σύνολο δεδομένων AVE και συγκρίνουμε τα αποτελέσματα με αυτά που αναφέρονται σε άλλες σχετικές μελέτες. Διαπιστώνουμε ότι η προσέγγισή μας επιτυγχάνει καλύτερη ακρίβεια στην αναγνώριση των γεγονότων. Η μελέτη αυτή συμβάλλει στον τομέα της αναγνώρισης οπτικοακουστικών γεγονότων και της τοπικοποίησης με την εισαγωγή ενός νέου πλαισίου που συγχωνεύει αποτελεσματικά τις οπτικοακουστικές πληροφορίες, οδηγώντας ενδεχομένως σε βελτιωμένη απόδοση και ταχύτερους χρόνους επεξεργασίας σε διάφορες εφαρμογές τοπικοποίησης. el
heal.abstract Audio-visual event recognition and localization is a challenging task that involves identifying events that are both visible and audible in a video. In this study, we propose a novel approach to address this challenge by employing an audio-guided visual attention mechanism to explore audio-visual correlations and leveraging a dual multimodal residual network (DMRN) to fuse information across the two modalities. Our methodology includes extracting features (audio or visual) from various pre-trained models, which have been developed for tasks such as image recognition or audio recognition. We then define novel architectures for the multimodal networks, aiming to effectively localize the target events in the audio-visual data. To evaluate the performance of our proposed approach, we apply it to the AVE dataset and compare the results with those reported in other relevant studies. We find that our approach achieves better accuracy in recognizing the events. This study contributes to the field of audio-visual event recognition and localization by introducing a novel framework that effectively fuses audio and visual information, potentially leading to improved performance and faster processing times in various localization applications. en
heal.advisorName Kollias, Stefanos en
heal.advisorName Tzouveli, Paraskevi en
heal.committeeMemberName Kollias, Stefanos en
heal.committeeMemberName Stamou, Georgios en
heal.committeeMemberName Voulodimos, Athanasios
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 101 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα