Explaining Multimodal Music Emotion and Genre Recognition

Σωτήρου, Θεόδωρος; Sotirou, Theodoros

dc.contributor.author	Σωτήρου, Θεόδωρος	el
dc.contributor.author	Sotirou, Theodoros	en
dc.date.accessioned	2025-01-20T11:21:33Z
dc.date.available	2025-01-20T11:21:33Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/60888
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.28584
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	Deep Learning	en
dc.subject	Multimodality	en
dc.subject	Explainability	en
dc.subject	Music Emotion Classification	en
dc.subject	Music Genre Classification	en
dc.subject	Βαθιά Μάθηση	el
dc.subject	Πολυτροπικότητα	el
dc.subject	Επεξηγησιμότητα	el
dc.subject	Κατηγοριοποίηση Συναισθημάτων στην Μουσική	el
dc.subject	Κατηγοριοποίηση Ειδών στην Μουσική	el
dc.title	Explaining Multimodal Music Emotion and Genre Recognition	en
dc.title	Επεξήγηση πολυτροπικής αναγνώρισης συναισθημάτων και ειδών στην μουσική	el
heal.type	bachelorThesis
heal.classification	Τεχνητή Νοημοσύνη	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-07-17
heal.abstract	Music Information Retrieval (MIR) is a field of research concerned with the extraction and analysis of information from music. Among other tasks, it includes music regression/classification and specifically mood detection and genre recognition. Alongside the growth seen in artificial intelligence (AI) fields, MIR has also experienced significant advancements, including the availability of extensive datasets, the integration of new technologies and multimodal approaches as well as the development and application of advanced explainability methods. In this thesis, we dive into explaining music emotion and genre classification multimodal models. Firstly we look for available datasets that provide multimodal and multi task capabilities. We choose Music4All [54], offering lyrics and audio as well as emotion and genre metadata for each song and proceed by analysing, refining and slightly augmenting this work. We continue by utilizing pretrained transformer architectures, namely Robustly Optimized BERT Pretraining Approach (RoBERTa) and Audio Spectrogram Transformer (AST), so as to classify music creations into 9 distinct emotion and genre categories utilizing their lyrics, their audio and a combination of the two. Finally, we look for methods to explain each model and propose a way to generate multimodal explanations from lyrics and audio, using the power of LIME [51] and its audio implementation auioLIME [25]. Finally we generate global aggregates [35] of LIME explanations, providing insights into the models performance and the models ability to detect themes and elements distinct for each class.	el
heal.abstract	Η Ανάκτηση Πληροφοριών Μουσικής (MIR) είναι ένας τομέας έρευνας που ασχολείται με την εξαγωγή και ανάλυση πληροφοριών από τη μουσική. Μεταξύ άλλων, περιλαμβάνει την παλινδρόμηση/ταξινόμηση μουσικής και συγκεκριμένα την ανίχνευση διάθεσης και την αναγνώριση είδους. Παράλληλα με την ανάπτυξη που παρατηρείται στους τομείς της τεχνητής νοημοσύνης (AI), η MIR έχει επίσης σημειώσει σημαντικές προόδους, συμπεριλ αμβανομένης της διαθεσιμότητας εκτεταμένων συνόλων δεδομένων, της ενσωμάτωσης νέων τεχνολογιών και πολυτροπικών προσεγγίσεων καθώς και της ανάπτυξης και εφαρμογής προηγμένων μεθόδων επεξηγησιμότητας. Σε αυτήν τη διατριβή, εμβαθύνουμε στην επεξήγηση πολυτροπικών μοντέλων για την ταξινόμηση των συναισθη μάτων και των ειδών της μουσικής. Πρώτα απ’ όλα, αναζητούμε διαθέσιμα σύνολα δεδομένων που παρέχουν πολυτροπικές και πολυ-εργασιακές δυνατότητες. Επιλέγουμε το Music4All [54], που προσφέρει στίχους και ήχο καθώς και μεταδεδομένα συναισθημάτων και ειδών για κάθε τραγούδι, και προχωράμε στην ανάλυση, βελτίωση και ελαφρά επέκταση αυτού του έργου. Συνεχίζουμε χρησιμοποιώντας προεκπαιδευμένες αρχιτεκτονικές trans formers, δηλαδή το Robustly Optimized BERT Pretraining Approach (RoBERTa) και το Audio Spectrogram Transformer (AST), για να ταξινομήσουμε μουσικές δημιουργίες σε 9 ξεχωριστές κατηγορίες συναισθημάτων και ειδών, χρησιμοποιώντας τους στίχους, τον ήχο και έναν συνδυασμό των δύο. Τέλος, αναζητούμε μεθόδους για να εξηγήσουμε κάθε μοντέλο και προτείνουμε έναν τρόπο για τη δημιουργία πολυτροπικών επεξηγήσεων από στίχους και ήχο, χρησιμοποιώντας τη δύναμη του LIME [51] και την ηχητική του εφαρμογή audioLIME [25]. Τέλος δημιουργούμε συνολικούς συνδιασμούς [35] των εξηγήσεων LIME, παρέχοντας πληροφορίες για την απόδοση των μοντέλων και την ικανότητά τους να ανιχνεύουν μοτίβα και στοιχεία που είναι διακριτά για κάθε κατηγορία.	el
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών	el
heal.academicPublisherID	ntua
heal.numberOfPages	101 σ.	el
heal.fullTextAvailability	false