HEAL DSpace

Self-supervised music audio representation learning and domain adaptation across diverse music datasets

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Kanatas, Angelos-Nikolaos en
dc.contributor.author Κανατάς, Άγγελος Νικόλαος el
dc.date.accessioned 2025-11-26T10:58:36Z
dc.date.available 2025-11-26T10:58:36Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62942
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30638
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Ανάκτηση μουσικής πληροφορίας el
dc.subject Μάθηση αναπαραστάσεων μουσικής el
dc.subject Υπολογιστική εθνομουσικολογία el
dc.subject Συνεχής προ-εκπαίδευση el
dc.subject Συγχώνευση μοντέλων el
dc.subject Music information retrieval en
dc.subject Music representation learning en
dc.subject Computational ethnomusicology en
dc.subject Continual pre-training en
dc.subject Model merging en
dc.title Self-supervised music audio representation learning and domain adaptation across diverse music datasets en
dc.title Αυτο-επιβλεπόμενη μάθηση αναπαραστάσεων ήχου μουσικής και προσαρμογή πεδίου σε ποικίλα μουσικά σύνολα δεδομένων el
dc.contributor.department Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.type bachelorThesis
heal.classification Machine Learning en
heal.classification Music Information Retrieval en
heal.classification Μηχανική Μάθηση el
heal.classification Ανάκτηση Μουσικής Πληροφορίας el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-07-01
heal.abstract This thesis focuses on self-supervised music audio representation learning and cross-cultural adaptation of music foundation models to diverse musical traditions. Recent advances in music foundation models have improved audio representation learning and have brought them to the forefront of music information retrieval (MIR). However, their effectiveness across diverse musical traditions remains limited, as they are primarily trained on Western-centric data, overlooking the diversity of global musical cultures. To address this, we introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training (CPT) strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Continually pre-training MERT-95M on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges culturally specialized models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Finally, we analyze cross-cultural transferability between single-culture adapted models (via CPT), showing that musical traditions differ in how well they transfer to others, a pattern that correlates with acoustic token-level similarity among cultures, using as metrics the cosine distance and Jensen-Shannon divergence computed over EnCodec-extracted token distributions. Our findings demonstrate that exposure to culturally diverse data through multi-cultural CPT enhances cross-cultural generalization and leads to improved overall performance. This study contributes to the development of more culturally aware foundation models for music that generalize across diverse underrepresented musical traditions and enable world music understanding. en
heal.abstract Αυτή η διπλωματική εργασία επικεντρώνεται στη μάθηση αναπαραστάσεων μουσικής μέσω αυτο-επιβλεπόμενης μάθησης και στην προσαρμογή υπολογιστικών μοντέλων σε ποικίλες μουσικές παραδόσεις. Πρόσφατες εξελίξεις στα foundation μοντέλα για μουσική έχουν βελτιώσει σημαντικά τη μάθηση αναπαραστάσεων ήχου και τα έχουν φέρει στο επίκεντρο της ανάκτησης μουσικής πληροφορίας (music information retrieval – MIR). Ωστόσο, η αποτελεσματικότητά τους παραμένει περιορισμένη για μη Δυτικές μουσικές παραδόσεις, καθώς έχουν εκπαιδευτεί κυρίως σε Δυτικά είδη μουσικής. Στη μελέτη αυτή, προτείνουμε το CultureMERT-95M, ένα πολυπολιτισμικά προσαρμοσμένο μοντέλο που στοχεύει στη βελτίωση μάθησης αναπαραστάσεων για ποικίλες υποεκπροσωπούμενες μουσικές κουλτούρες. Για τον σκοπό αυτό, εφαρμόζουμε μια μέθοδο συνεχούς προ-εκπαίδευσης (continual pre-training - CPT) δύο σταδίων, η οποία ενσωματώνει επαναθέρμανση και εκ νέου μείωση του ρυθμού μάθησης, επιτρέποντας σταθερή προσαρμογή με περιορισμένους υπολογιστικούς πόρους. Η συνεχής προ-εκπαίδευση του MERT-95M σε πολυπολιτισμικό σύνολο δεδομένων 650 ωρών, που περιλαμβάνει Ελληνικές, Τουρκικές και Ινδικές μουσικές παραδόσεις, οδηγεί σε μέση βελτίωση 4.43% στη μετρική ROC-AUC σε διάφορες εργασίες αυτόματης ταξινόμησης μουσικής (music auto-tagging tasks) μη Δυτικών παραδόσεων, ξεπερνώντας προηγούμενες μεθόδους, με αμελητέα απώλεια απόδοσης σε Δυτικά benchmarks. Επιπλέον, διερευνούμε την τεχνική task arithmetic, μια εναλλακτική προσέγγιση που συγχωνεύει εξειδικευμένα μοντέλα ανά παράδοση στον χώρο των βαρών, παρουσιάζοντας συγκρίσιμη απόδοση στα μη Δυτικά σύνολα δεδομένων, χωρίς επιδείνωση στα Δυτικά. Τέλος, αναλύουμε τη διαπολιτισμική μεταφερσιμότητα (cross-cultural transferability) μεταξύ μοντέλων που έχουν προσαρμοστεί σε επιμέρους παραδόσεις, δείχνοντας ότι διαφέρουν ως προς τη δυνατότητα μεταφοράς τους σε άλλες μουσικές κουλτούρες, ένα εύρημα που συσχετίζεται επίσης με την ομοιότητα μεταξύ των δεδομένων που χρησιμοποιούμε, με βάση μετρικές ομοιότητας σε επίπεδο ακουστικών tokens. Παρατηρούμε ότι η συνεχής προ-εκπαίδευση σε σύνολο δεδομένων από διαφορετικές μη Δυτικές παραδόσεις οδηγεί στην καλύτερη συνολική απόδοση, ενισχύοντας τη διαπολιτισμική γενίκευση του μοντέλου. Η μελέτη αυτή συμβάλλει στην ανάπτυξη πιο πολιτισμικά ευαισθητοποιημένων υπολογιστικών μοντέλων μουσικής, ικανών να κατανοούν υποεκπροσωπούμενες μουσικές παραδόσεις. el
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 127 σ.
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα