dc.contributor.author | Μάκαρης, Νικόλαος | el |
dc.contributor.author | Makaris, Nikolaos | en |
dc.date.accessioned | 2023-06-07T08:15:46Z | |
dc.date.available | 2023-06-07T08:15:46Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/57802 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.25499 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" | el |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Αναγνώριση οπτικοακουστικών συμβάντων | el |
dc.subject | Εντοπισμός συμβάντων | el |
dc.subject | Πολυτροπική σύντηξη | el |
dc.subject | Προεκπαιδευμένα μοντέλα | el |
dc.subject | Εξαγωγή χαρακτηριστικών γνωρισμάτων | el |
dc.subject | Audio-visual event recognition | en |
dc.subject | Event localization | en |
dc.subject | Pre-trained models | en |
dc.subject | Multimodal fusion | en |
dc.subject | Pre-trained models | en |
dc.subject | Feature extraction | en |
dc.title | Η αναγνώριση και η επιχώρια προσαρμογή οπτικοακουστικών γεγονότων με τεχνικές μηχανικής μάθησης | el |
dc.title | Recognition and localization of audio-visual events with machine learning techniques | en |
heal.type | masterThesis | |
heal.secondaryTitle | Recognition and localization of audio-visual events with machine learning technique | en |
heal.classification | Machine learning | en |
heal.classification | Audio-Visual | en |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-03-17 | |
heal.abstract | Η αναγνώριση οπτικοακουστικών γεγονότων και η επιχώρια προσαρμογή είναι ένα δύσκολο έργο που περιλαμβάνει την αναγνώριση γεγονότων που είναι τόσο ορατά όσο και ηχητικά σε ένα βίντεο. Σε αυτήν τη μελέτη, προτείνουμε μια καινοτόμο προσέγγιση για την αντιμετώπιση αυτής της πρόκλησης χρησιμοποιώντας έναν οπτικοακουστικό μηχανισμό οπτικής προσοχής για τη διερεύνηση οπτικοακουστικών συσχετίσεων και τη χρήση ενός διπλού πολυτροπικού δικτύου υπολειπόμενων εκπομπών (DMRN) για τη σύντηξη πληροφοριών μεταξύ των δύο τρόπων. Η μεθοδολογία μας περιλαμβάνει την εξαγωγή χαρακτηριστικών (οπτικοακουστικών ή οπτικών) από διάφορα προ-εκπαιδευμένα μοντέλα, τα οποία έχουν αναπτυχθεί για εργασίες όπως αναγνώριση εικόνας ή αναγνώριση ήχου. Στη συνέχεια ορίζουμε καινοτόμες αρχιτεκτονικές για τα πολυτροπικά δίκτυα, με στόχο τον αποτελεσματικό εντοπισμό των γεγονότων-στόχων στα οπτικοακουστικά δεδομένα. Για να αξιολογήσουμε την απόδοση της προτεινόμενης προσέγγισής μας, την εφαρμόζουμε στο σύνολο δεδομένων AVE και συγκρίνουμε τα αποτελέσματα με αυτά που αναφέρονται σε άλλες σχετικές μελέτες. Διαπιστώνουμε ότι η προσέγγισή μας επιτυγχάνει καλύτερη ακρίβεια στην αναγνώριση των γεγονότων. Η μελέτη αυτή συμβάλλει στον τομέα της αναγνώρισης οπτικοακουστικών γεγονότων και της τοπικοποίησης με την εισαγωγή ενός νέου πλαισίου που συγχωνεύει αποτελεσματικά τις οπτικοακουστικές πληροφορίες, οδηγώντας ενδεχομένως σε βελτιωμένη απόδοση και ταχύτερους χρόνους επεξεργασίας σε διάφορες εφαρμογές τοπικοποίησης. | el |
heal.abstract | Audio-visual event recognition and localization is a challenging task that involves identifying events that are both visible and audible in a video. In this study, we propose a novel approach to address this challenge by employing an audio-guided visual attention mechanism to explore audio-visual correlations and leveraging a dual multimodal residual network (DMRN) to fuse information across the two modalities. Our methodology includes extracting features (audio or visual) from various pre-trained models, which have been developed for tasks such as image recognition or audio recognition. We then define novel architectures for the multimodal networks, aiming to effectively localize the target events in the audio-visual data. To evaluate the performance of our proposed approach, we apply it to the AVE dataset and compare the results with those reported in other relevant studies. We find that our approach achieves better accuracy in recognizing the events. This study contributes to the field of audio-visual event recognition and localization by introducing a novel framework that effectively fuses audio and visual information, potentially leading to improved performance and faster processing times in various localization applications. | en |
heal.advisorName | Kollias, Stefanos | en |
heal.advisorName | Tzouveli, Paraskevi | en |
heal.committeeMemberName | Kollias, Stefanos | en |
heal.committeeMemberName | Stamou, Georgios | en |
heal.committeeMemberName | Voulodimos, Athanasios | |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 101 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: