Audio-visual Self-Supervised Representation Learning in-the-wild

Βιλουράς, Κωνσταντίνος; Vilouras, Konstantinos

dc.contributor.author	Βιλουράς, Κωνσταντίνος	el
dc.contributor.author	Vilouras, Konstantinos	en
dc.date.accessioned	2022-10-20T07:30:50Z
dc.date.available	2022-10-20T07:30:50Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/55964
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.23662
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Βαθιά μάθηση	el
dc.subject	Αυτο-επιβλεπόμενη μάθηση	el
dc.subject	Πολυτροπική μάθηση	el
dc.subject	Αναγνώριση δράσεων σε βίντεο	el
dc.subject	Ανάκτηση βίντεο	el
dc.subject	Deep Learning	en
dc.subject	Self-supervised learning	en
dc.subject	Multimodal learning	en
dc.subject	Action recognition	en
dc.subject	Video retrieval	en
dc.title	Audio-visual Self-Supervised Representation Learning in-the-wild	en
heal.type	masterThesis
heal.classification	Machine Learning	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-06-28
heal.abstract	Τα τελευταία χρόνια παρατηρείται μια ραγδαία ανάπτυξη του κλάδου της μηχανικής μάθησης, με τα μοντέλα που προκύπτουν μέσω τεχνικών επιβλεπόμενης μάθησης να εφαρμόζονται ήδη σε διάφορους επιστημονικούς τομείς. Ωστόσο, η απαίτηση ύπαρξης ενός επισημασμένου συνόλου δεδομένων μεγάλης κλίμακας για την εκπαίδευση των μοντέλων αποτελεί περιοριστικό παράγοντα, καθώς η διαδικασία της επισήμανσης είναι ιδιαίτερα χρονοβόρα και κοστοβόρα. Εν αντιθέσει, οι αυτο-επιβλεπόμενες μέθοδοι μάθησης εξάγουν σήματα επίβλεψης απευθείας από τα δεδομένα με σκοπό την κωδικοποίηση της πληροφορίας που είναι απαραίτητη για να εξηγήσει τη δομή και τις ιδιότητές τους. Στην παρούσα διπλωματική εξετάζεται η περίπτωση των δεδομένων βίντεο, τα οποία φέρουν πληροφορία μέσω ενός συνδυασμού τροπικοτήτων (εικόνα και ήχος). Συγκεκριμένα, χρησιμοποιούνται βίντεο από μέσα κοινωνικής δικτύωσης τα οποία εμπεριέχουν θόρυβο, ενώ επίσης σε ένα μεγάλο ποσοστό αυτών υπάρχει μικρή συσχέτιση μεταξύ της οπτικής και της ακουστικής πληροφορίας. Επιπλέον, για τους σκοπούς της παρούσας ανάλυσης, χρησιμοποιούμε δύο μεθόδους αυτο-επιβλεπόμενης μάθησης. Η πρώτη μέθοδος βασίζεται στην τεχνική της συγκριτικής (contrastive) μάθησης, η οποία οδηγεί σε υψηλής ποιότητας οπτικο-ακουστικές αναπαραστάσεις. Αντίθετα, η δεύτερη μέθοδος, η οποία προτάθηκε πρόσφατα στη βιβλιογραφία, ανήκει στην κατηγορία των μη-συγκριτικών (non-contrastive) τεχνικών μάθησης και δεν έχει εφαρμοστεί ξανά σε οπτικοακουστικά δεδομένα. Τα πειραματικά αποτελέσματα σε δύο καθιερωμένα σύνολα δεδομένων δείχνουν την υπεροχή των πολυτροπικών μεθόδων μάθησης έναντι των αντίστοιχων μονοτροπικών. Επιπρόσθετα, η μέθοδος της συγκριτικής μάθησης οδηγεί σε σαφώς καλύτερα αποτελέσματα, καθώς αντιμετωπίζει σε μεγάλο βαθμό τα προβλήματα που δημιουργούνται από τα θορυβώδη δεδομένα, καθώς και από την αναντιστοιχία που προκύπτει στο ρυθμό εκπαίδευσης μεταξύ οπτικών και ακουστικών εισόδων. Επίσης, εξετάστηκε η δυνατότητα γενίκευσης των μοντέλων σε άγνωστα δεδομένα. Το συγκεκριμένο πείραμα έδειξε ότι τα αυτο-επιβλεπόμενα μοντέλα λειτουργούν καλύτερα σε τέτοιου είδους περιπτώσεις, οδηγώντας στο συμπέρασμα ότι δεν έχουν μοντελοποιήσει επαρκώς τα δεδομένα που ανήκουν στο σύνολο προ-εκπαίδευσης. Τέλος, μέσω της εφαρμογής του καλύτερου μας μοντέλου στο πρόβλημα της ανάκτησης βίντεο, καταλήγουμε στο ότι οι οπτικο-ακουστικές αναπαραστάσεις που προέκυψαν δεν είναι ικανοποιητικά ευθυγραμμισμένες, δηλαδή δεν έχει κωδικοποιηθεί επαρκώς η αντιστοίχιση εννοιών μεταξύ τροπικοτήτων.	el
heal.abstract	In recent years, the field of machine learning has made tremendous progress in developing systems that can learn from large amounts of high-quality annotated data. Despite their success, it is clear that their performance is upper-bounded, as the vast majority of data available on the Internet is unlabeled and noisy, while the time and cost needed for the annotation process is prohibitive. Therefore, it is important to develop methods that allow networks to learn representations with limited supervision. Self-supervised learning has overcome these limitations by extracting learning signals from data alone. More specifically, through simple tasks such as predicting unobserved or hidden parts of an input, networks encode information about the underlying structure of data. As a result, this process yields powerful features that can be used in a variety of downstream tasks. In this study we focus on video signals, a rich data source which provides information in the form of naturally synchronized modalities, i.e. video and audio. In fact, we consider the case of data acquired in-the-wild, e.g. from social media platforms, which pose additional challenges such as weak audio-visual correspondences that typically occur in real-world scenarios. Furthermore, we use two self-supervised learning methods that are compatible with audio-visual inputs. The first is an established contrastive learning technique that shows promising results in popular action recognition benchmarks, whereas the second is a recently proposed non-contrastive approach that has not yet been applied to audio-visual data. We also compare both methods with their uni-modal counterparts to demonstrate the effectiveness of cross-modal learning. Results on a popular evaluation suite show that the contrastive learning technique outperforms all other methods, as it produces features which are both sufficiently linearly separable and also transferable across datasets. Moreover, the degradation in performance for the rest of the methods can be attributed to two factors, namely the lack of a mechanism that mitigates uninformative inputs, and also the difference in learning dynamics between visual and audio modality. Additionally, we present a novel benchmark for measuring generalization performance. The outcome of this experiment indicates that, although self-supervised models perform well on unseen concepts, they also seem to underfit the pre-training dataset. Last, we evaluate our top-performing model on video retrieval. For this task, we provide evidence that the model exhibits poor localization which, in turn, negatively affects cross-modal retrieval.	en
heal.advisorName	Κόλλιας, Στέφανος	el
heal.advisorName	Τζούβελη, Παρασκευή	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Τζούβελη, Παρασκευή	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false