HEAL DSpace

Audio-visual Self-Supervised Representation Learning in-the-wild

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βιλουράς, Κωνσταντίνος el
dc.contributor.author Vilouras, Konstantinos en
dc.date.accessioned 2022-10-20T07:30:50Z
dc.date.available 2022-10-20T07:30:50Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/55964
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.23662
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Βαθιά μάθηση el
dc.subject Αυτο-επιβλεπόμενη μάθηση el
dc.subject Πολυτροπική μάθηση el
dc.subject Αναγνώριση δράσεων σε βίντεο el
dc.subject Ανάκτηση βίντεο el
dc.subject Deep Learning en
dc.subject Self-supervised learning en
dc.subject Multimodal learning en
dc.subject Action recognition en
dc.subject Video retrieval en
dc.title Audio-visual Self-Supervised Representation Learning in-the-wild en
heal.type masterThesis
heal.classification Machine Learning en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-06-28
heal.abstract Τα τελευταία χρόνια παρατηρείται μια ραγδαία ανάπτυξη του κλάδου της μηχανικής μάθησης, με τα μοντέλα που προκύπτουν μέσω τεχνικών επιβλεπόμενης μάθησης να εφαρμόζονται ήδη σε διάφορους επιστημονικούς τομείς. Ωστόσο, η απαίτηση ύπαρξης ενός επισημασμένου συνόλου δεδομένων μεγάλης κλίμακας για την εκπαίδευση των μοντέλων αποτελεί περιοριστικό παράγοντα, καθώς η διαδικασία της επισήμανσης είναι ιδιαίτερα χρονοβόρα και κοστοβόρα. Εν αντιθέσει, οι αυτο-επιβλεπόμενες μέθοδοι μάθησης εξάγουν σήματα επίβλεψης απευθείας από τα δεδομένα με σκοπό την κωδικοποίηση της πληροφορίας που είναι απαραίτητη για να εξηγήσει τη δομή και τις ιδιότητές τους. Στην παρούσα διπλωματική εξετάζεται η περίπτωση των δεδομένων βίντεο, τα οποία φέρουν πληροφορία μέσω ενός συνδυασμού τροπικοτήτων (εικόνα και ήχος). Συγκεκριμένα, χρησιμοποιούνται βίντεο από μέσα κοινωνικής δικτύωσης τα οποία εμπεριέχουν θόρυβο, ενώ επίσης σε ένα μεγάλο ποσοστό αυτών υπάρχει μικρή συσχέτιση μεταξύ της οπτικής και της ακουστικής πληροφορίας. Επιπλέον, για τους σκοπούς της παρούσας ανάλυσης, χρησιμοποιούμε δύο μεθόδους αυτο-επιβλεπόμενης μάθησης. Η πρώτη μέθοδος βασίζεται στην τεχνική της συγκριτικής (contrastive) μάθησης, η οποία οδηγεί σε υψηλής ποιότητας οπτικο-ακουστικές αναπαραστάσεις. Αντίθετα, η δεύτερη μέθοδος, η οποία προτάθηκε πρόσφατα στη βιβλιογραφία, ανήκει στην κατηγορία των μη-συγκριτικών (non-contrastive) τεχνικών μάθησης και δεν έχει εφαρμοστεί ξανά σε οπτικοακουστικά δεδομένα. Τα πειραματικά αποτελέσματα σε δύο καθιερωμένα σύνολα δεδομένων δείχνουν την υπεροχή των πολυτροπικών μεθόδων μάθησης έναντι των αντίστοιχων μονοτροπικών. Επιπρόσθετα, η μέθοδος της συγκριτικής μάθησης οδηγεί σε σαφώς καλύτερα αποτελέσματα, καθώς αντιμετωπίζει σε μεγάλο βαθμό τα προβλήματα που δημιουργούνται από τα θορυβώδη δεδομένα, καθώς και από την αναντιστοιχία που προκύπτει στο ρυθμό εκπαίδευσης μεταξύ οπτικών και ακουστικών εισόδων. Επίσης, εξετάστηκε η δυνατότητα γενίκευσης των μοντέλων σε άγνωστα δεδομένα. Το συγκεκριμένο πείραμα έδειξε ότι τα αυτο-επιβλεπόμενα μοντέλα λειτουργούν καλύτερα σε τέτοιου είδους περιπτώσεις, οδηγώντας στο συμπέρασμα ότι δεν έχουν μοντελοποιήσει επαρκώς τα δεδομένα που ανήκουν στο σύνολο προ-εκπαίδευσης. Τέλος, μέσω της εφαρμογής του καλύτερου μας μοντέλου στο πρόβλημα της ανάκτησης βίντεο, καταλήγουμε στο ότι οι οπτικο-ακουστικές αναπαραστάσεις που προέκυψαν δεν είναι ικανοποιητικά ευθυγραμμισμένες, δηλαδή δεν έχει κωδικοποιηθεί επαρκώς η αντιστοίχιση εννοιών μεταξύ τροπικοτήτων. el
heal.abstract In recent years, the field of machine learning has made tremendous progress in developing systems that can learn from large amounts of high-quality annotated data. Despite their success, it is clear that their performance is upper-bounded, as the vast majority of data available on the Internet is unlabeled and noisy, while the time and cost needed for the annotation process is prohibitive. Therefore, it is important to develop methods that allow networks to learn representations with limited supervision. Self-supervised learning has overcome these limitations by extracting learning signals from data alone. More specifically, through simple tasks such as predicting unobserved or hidden parts of an input, networks encode information about the underlying structure of data. As a result, this process yields powerful features that can be used in a variety of downstream tasks. In this study we focus on video signals, a rich data source which provides information in the form of naturally synchronized modalities, i.e. video and audio. In fact, we consider the case of data acquired in-the-wild, e.g. from social media platforms, which pose additional challenges such as weak audio-visual correspondences that typically occur in real-world scenarios. Furthermore, we use two self-supervised learning methods that are compatible with audio-visual inputs. The first is an established contrastive learning technique that shows promising results in popular action recognition benchmarks, whereas the second is a recently proposed non-contrastive approach that has not yet been applied to audio-visual data. We also compare both methods with their uni-modal counterparts to demonstrate the effectiveness of cross-modal learning. Results on a popular evaluation suite show that the contrastive learning technique outperforms all other methods, as it produces features which are both sufficiently linearly separable and also transferable across datasets. Moreover, the degradation in performance for the rest of the methods can be attributed to two factors, namely the lack of a mechanism that mitigates uninformative inputs, and also the difference in learning dynamics between visual and audio modality. Additionally, we present a novel benchmark for measuring generalization performance. The outcome of this experiment indicates that, although self-supervised models perform well on unseen concepts, they also seem to underfit the pre-training dataset. Last, we evaluate our top-performing model on video retrieval. For this task, we provide evidence that the model exhibits poor localization which, in turn, negatively affects cross-modal retrieval. en
heal.advisorName Κόλλιας, Στέφανος el
heal.advisorName Τζούβελη, Παρασκευή el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Τζούβελη, Παρασκευή el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα