HEAL DSpace

Explaining Multimodal Music Emotion and Genre Recognition

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σωτήρου, Θεόδωρος el
dc.contributor.author Sotirou, Theodoros en
dc.date.accessioned 2025-01-20T11:21:33Z
dc.date.available 2025-01-20T11:21:33Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60888
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Deep Learning en
dc.subject Multimodality en
dc.subject Explainability en
dc.subject Music Emotion Classification en
dc.subject Music Genre Classification en
dc.subject Βαθιά Μάθηση el
dc.subject Πολυτροπικότητα el
dc.subject Επεξηγησιμότητα el
dc.subject Κατηγοριοποίηση Συναισθημάτων στην Μουσική el
dc.subject Κατηγοριοποίηση Ειδών στην Μουσική el
dc.title Explaining Multimodal Music Emotion and Genre Recognition en
dc.title Επεξήγηση πολυτροπικής αναγνώρισης συναισθημάτων και ειδών στην μουσική el
heal.type bachelorThesis
heal.classification Τεχνητή Νοημοσύνη el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-17
heal.abstract Music Information Retrieval (MIR) is a field of research concerned with the extraction and analysis of information from music. Among other tasks, it includes music regression/classification and specifically mood detection and genre recognition. Alongside the growth seen in artificial intelligence (AI) fields, MIR has also experienced significant advancements, including the availability of extensive datasets, the integration of new technologies and multimodal approaches as well as the development and application of advanced explainability methods. In this thesis, we dive into explaining music emotion and genre classification multimodal models. Firstly we look for available datasets that provide multimodal and multi task capabilities. We choose Music4All [54], offering lyrics and audio as well as emotion and genre metadata for each song and proceed by analysing, refining and slightly augmenting this work. We continue by utilizing pretrained transformer architectures, namely Robustly Optimized BERT Pretraining Approach (RoBERTa) and Audio Spectrogram Transformer (AST), so as to classify music creations into 9 distinct emotion and genre categories utilizing their lyrics, their audio and a combination of the two. Finally, we look for methods to explain each model and propose a way to generate multimodal explanations from lyrics and audio, using the power of LIME [51] and its audio implementation auioLIME [25]. Finally we generate global aggregates [35] of LIME explanations, providing insights into the models performance and the models ability to detect themes and elements distinct for each class. el
heal.abstract Η Ανάκτηση Πληροφοριών Μουσικής (MIR) είναι ένας τομέας έρευνας που ασχολείται με την εξαγωγή και ανάλυση πληροφοριών από τη μουσική. Μεταξύ άλλων, περιλαμβάνει την παλινδρόμηση/ταξινόμηση μουσικής και συγκεκριμένα την ανίχνευση διάθεσης και την αναγνώριση είδους. Παράλληλα με την ανάπτυξη που παρατηρείται στους τομείς της τεχνητής νοημοσύνης (AI), η MIR έχει επίσης σημειώσει σημαντικές προόδους, συμπεριλ αμβανομένης της διαθεσιμότητας εκτεταμένων συνόλων δεδομένων, της ενσωμάτωσης νέων τεχνολογιών και πολυτροπικών προσεγγίσεων καθώς και της ανάπτυξης και εφαρμογής προηγμένων μεθόδων επεξηγησιμότητας. Σε αυτήν τη διατριβή, εμβαθύνουμε στην επεξήγηση πολυτροπικών μοντέλων για την ταξινόμηση των συναισθη μάτων και των ειδών της μουσικής. Πρώτα απ’ όλα, αναζητούμε διαθέσιμα σύνολα δεδομένων που παρέχουν πολυτροπικές και πολυ-εργασιακές δυνατότητες. Επιλέγουμε το Music4All [54], που προσφέρει στίχους και ήχο καθώς και μεταδεδομένα συναισθημάτων και ειδών για κάθε τραγούδι, και προχωράμε στην ανάλυση, βελτίωση και ελαφρά επέκταση αυτού του έργου. Συνεχίζουμε χρησιμοποιώντας προεκπαιδευμένες αρχιτεκτονικές trans formers, δηλαδή το Robustly Optimized BERT Pretraining Approach (RoBERTa) και το Audio Spectrogram Transformer (AST), για να ταξινομήσουμε μουσικές δημιουργίες σε 9 ξεχωριστές κατηγορίες συναισθημάτων και ειδών, χρησιμοποιώντας τους στίχους, τον ήχο και έναν συνδυασμό των δύο. Τέλος, αναζητούμε μεθόδους για να εξηγήσουμε κάθε μοντέλο και προτείνουμε έναν τρόπο για τη δημιουργία πολυτροπικών επεξηγήσεων από στίχους και ήχο, χρησιμοποιώντας τη δύναμη του LIME [51] και την ηχητική του εφαρμογή audioLIME [25]. Τέλος δημιουργούμε συνολικούς συνδιασμούς [35] των εξηγήσεων LIME, παρέχοντας πληροφορίες για την απόδοση των μοντέλων και την ικανότητά τους να ανιχνεύουν μοτίβα και στοιχεία που είναι διακριτά για κάθε κατηγορία. el
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών el
heal.academicPublisherID ntua
heal.numberOfPages 101 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα