dc.contributor.author | Βιλουράς, Κωνσταντίνος | el |
dc.contributor.author | Vilouras, Konstantinos | en |
dc.date.accessioned | 2022-10-20T07:30:50Z | |
dc.date.available | 2022-10-20T07:30:50Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/55964 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.23662 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Βαθιά μάθηση | el |
dc.subject | Αυτο-επιβλεπόμενη μάθηση | el |
dc.subject | Πολυτροπική μάθηση | el |
dc.subject | Αναγνώριση δράσεων σε βίντεο | el |
dc.subject | Ανάκτηση βίντεο | el |
dc.subject | Deep Learning | en |
dc.subject | Self-supervised learning | en |
dc.subject | Multimodal learning | en |
dc.subject | Action recognition | en |
dc.subject | Video retrieval | en |
dc.title | Audio-visual Self-Supervised Representation Learning in-the-wild | en |
heal.type | masterThesis | |
heal.classification | Machine Learning | en |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2022-06-28 | |
heal.abstract | Τα τελευταία χρόνια παρατηρείται μια ραγδαία ανάπτυξη του κλάδου της μηχανικής μάθησης, με τα μοντέλα που προκύπτουν μέσω τεχνικών επιβλεπόμενης μάθησης να εφαρμόζονται ήδη σε διάφορους επιστημονικούς τομείς. Ωστόσο, η απαίτηση ύπαρξης ενός επισημασμένου συνόλου δεδομένων μεγάλης κλίμακας για την εκπαίδευση των μοντέλων αποτελεί περιοριστικό παράγοντα, καθώς η διαδικασία της επισήμανσης είναι ιδιαίτερα χρονοβόρα και κοστοβόρα. Εν αντιθέσει, οι αυτο-επιβλεπόμενες μέθοδοι μάθησης εξάγουν σήματα επίβλεψης απευθείας από τα δεδομένα με σκοπό την κωδικοποίηση της πληροφορίας που είναι απαραίτητη για να εξηγήσει τη δομή και τις ιδιότητές τους. Στην παρούσα διπλωματική εξετάζεται η περίπτωση των δεδομένων βίντεο, τα οποία φέρουν πληροφορία μέσω ενός συνδυασμού τροπικοτήτων (εικόνα και ήχος). Συγκεκριμένα, χρησιμοποιούνται βίντεο από μέσα κοινωνικής δικτύωσης τα οποία εμπεριέχουν θόρυβο, ενώ επίσης σε ένα μεγάλο ποσοστό αυτών υπάρχει μικρή συσχέτιση μεταξύ της οπτικής και της ακουστικής πληροφορίας. Επιπλέον, για τους σκοπούς της παρούσας ανάλυσης, χρησιμοποιούμε δύο μεθόδους αυτο-επιβλεπόμενης μάθησης. Η πρώτη μέθοδος βασίζεται στην τεχνική της συγκριτικής (contrastive) μάθησης, η οποία οδηγεί σε υψηλής ποιότητας οπτικο-ακουστικές αναπαραστάσεις. Αντίθετα, η δεύτερη μέθοδος, η οποία προτάθηκε πρόσφατα στη βιβλιογραφία, ανήκει στην κατηγορία των μη-συγκριτικών (non-contrastive) τεχνικών μάθησης και δεν έχει εφαρμοστεί ξανά σε οπτικοακουστικά δεδομένα. Τα πειραματικά αποτελέσματα σε δύο καθιερωμένα σύνολα δεδομένων δείχνουν την υπεροχή των πολυτροπικών μεθόδων μάθησης έναντι των αντίστοιχων μονοτροπικών. Επιπρόσθετα, η μέθοδος της συγκριτικής μάθησης οδηγεί σε σαφώς καλύτερα αποτελέσματα, καθώς αντιμετωπίζει σε μεγάλο βαθμό τα προβλήματα που δημιουργούνται από τα θορυβώδη δεδομένα, καθώς και από την αναντιστοιχία που προκύπτει στο ρυθμό εκπαίδευσης μεταξύ οπτικών και ακουστικών εισόδων. Επίσης, εξετάστηκε η δυνατότητα γενίκευσης των μοντέλων σε άγνωστα δεδομένα. Το συγκεκριμένο πείραμα έδειξε ότι τα αυτο-επιβλεπόμενα μοντέλα λειτουργούν καλύτερα σε τέτοιου είδους περιπτώσεις, οδηγώντας στο συμπέρασμα ότι δεν έχουν μοντελοποιήσει επαρκώς τα δεδομένα που ανήκουν στο σύνολο προ-εκπαίδευσης. Τέλος, μέσω της εφαρμογής του καλύτερου μας μοντέλου στο πρόβλημα της ανάκτησης βίντεο, καταλήγουμε στο ότι οι οπτικο-ακουστικές αναπαραστάσεις που προέκυψαν δεν είναι ικανοποιητικά ευθυγραμμισμένες, δηλαδή δεν έχει κωδικοποιηθεί επαρκώς η αντιστοίχιση εννοιών μεταξύ τροπικοτήτων. | el |
heal.abstract | In recent years, the field of machine learning has made tremendous progress in developing systems that can learn from large amounts of high-quality annotated data. Despite their success, it is clear that their performance is upper-bounded, as the vast majority of data available on the Internet is unlabeled and noisy, while the time and cost needed for the annotation process is prohibitive. Therefore, it is important to develop methods that allow networks to learn representations with limited supervision. Self-supervised learning has overcome these limitations by extracting learning signals from data alone. More specifically, through simple tasks such as predicting unobserved or hidden parts of an input, networks encode information about the underlying structure of data. As a result, this process yields powerful features that can be used in a variety of downstream tasks. In this study we focus on video signals, a rich data source which provides information in the form of naturally synchronized modalities, i.e. video and audio. In fact, we consider the case of data acquired in-the-wild, e.g. from social media platforms, which pose additional challenges such as weak audio-visual correspondences that typically occur in real-world scenarios. Furthermore, we use two self-supervised learning methods that are compatible with audio-visual inputs. The first is an established contrastive learning technique that shows promising results in popular action recognition benchmarks, whereas the second is a recently proposed non-contrastive approach that has not yet been applied to audio-visual data. We also compare both methods with their uni-modal counterparts to demonstrate the effectiveness of cross-modal learning. Results on a popular evaluation suite show that the contrastive learning technique outperforms all other methods, as it produces features which are both sufficiently linearly separable and also transferable across datasets. Moreover, the degradation in performance for the rest of the methods can be attributed to two factors, namely the lack of a mechanism that mitigates uninformative inputs, and also the difference in learning dynamics between visual and audio modality. Additionally, we present a novel benchmark for measuring generalization performance. The outcome of this experiment indicates that, although self-supervised models perform well on unseen concepts, they also seem to underfit the pre-training dataset. Last, we evaluate our top-performing model on video retrieval. For this task, we provide evidence that the model exhibits poor localization which, in turn, negatively affects cross-modal retrieval. | en |
heal.advisorName | Κόλλιας, Στέφανος | el |
heal.advisorName | Τζούβελη, Παρασκευή | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Τζούβελη, Παρασκευή | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: