dc.contributor.author | Σωτήρου, Θεόδωρος | el |
dc.contributor.author | Sotirou, Theodoros | en |
dc.date.accessioned | 2025-01-20T11:21:33Z | |
dc.date.available | 2025-01-20T11:21:33Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/60888 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/3.0/gr/ | * |
dc.subject | Deep Learning | en |
dc.subject | Multimodality | en |
dc.subject | Explainability | en |
dc.subject | Music Emotion Classification | en |
dc.subject | Music Genre Classification | en |
dc.subject | Βαθιά Μάθηση | el |
dc.subject | Πολυτροπικότητα | el |
dc.subject | Επεξηγησιμότητα | el |
dc.subject | Κατηγοριοποίηση Συναισθημάτων στην Μουσική | el |
dc.subject | Κατηγοριοποίηση Ειδών στην Μουσική | el |
dc.title | Explaining Multimodal Music Emotion and Genre Recognition | en |
dc.title | Επεξήγηση πολυτροπικής αναγνώρισης συναισθημάτων και ειδών στην μουσική | el |
heal.type | bachelorThesis | |
heal.classification | Τεχνητή Νοημοσύνη | el |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-07-17 | |
heal.abstract | Music Information Retrieval (MIR) is a field of research concerned with the extraction and analysis of information from music. Among other tasks, it includes music regression/classification and specifically mood detection and genre recognition. Alongside the growth seen in artificial intelligence (AI) fields, MIR has also experienced significant advancements, including the availability of extensive datasets, the integration of new technologies and multimodal approaches as well as the development and application of advanced explainability methods. In this thesis, we dive into explaining music emotion and genre classification multimodal models. Firstly we look for available datasets that provide multimodal and multi task capabilities. We choose Music4All [54], offering lyrics and audio as well as emotion and genre metadata for each song and proceed by analysing, refining and slightly augmenting this work. We continue by utilizing pretrained transformer architectures, namely Robustly Optimized BERT Pretraining Approach (RoBERTa) and Audio Spectrogram Transformer (AST), so as to classify music creations into 9 distinct emotion and genre categories utilizing their lyrics, their audio and a combination of the two. Finally, we look for methods to explain each model and propose a way to generate multimodal explanations from lyrics and audio, using the power of LIME [51] and its audio implementation auioLIME [25]. Finally we generate global aggregates [35] of LIME explanations, providing insights into the models performance and the models ability to detect themes and elements distinct for each class. | el |
heal.abstract | Η Ανάκτηση Πληροφοριών Μουσικής (MIR) είναι ένας τομέας έρευνας που ασχολείται με την εξαγωγή και ανάλυση πληροφοριών από τη μουσική. Μεταξύ άλλων, περιλαμβάνει την παλινδρόμηση/ταξινόμηση μουσικής και συγκεκριμένα την ανίχνευση διάθεσης και την αναγνώριση είδους. Παράλληλα με την ανάπτυξη που παρατηρείται στους τομείς της τεχνητής νοημοσύνης (AI), η MIR έχει επίσης σημειώσει σημαντικές προόδους, συμπεριλ αμβανομένης της διαθεσιμότητας εκτεταμένων συνόλων δεδομένων, της ενσωμάτωσης νέων τεχνολογιών και πολυτροπικών προσεγγίσεων καθώς και της ανάπτυξης και εφαρμογής προηγμένων μεθόδων επεξηγησιμότητας. Σε αυτήν τη διατριβή, εμβαθύνουμε στην επεξήγηση πολυτροπικών μοντέλων για την ταξινόμηση των συναισθη μάτων και των ειδών της μουσικής. Πρώτα απ’ όλα, αναζητούμε διαθέσιμα σύνολα δεδομένων που παρέχουν πολυτροπικές και πολυ-εργασιακές δυνατότητες. Επιλέγουμε το Music4All [54], που προσφέρει στίχους και ήχο καθώς και μεταδεδομένα συναισθημάτων και ειδών για κάθε τραγούδι, και προχωράμε στην ανάλυση, βελτίωση και ελαφρά επέκταση αυτού του έργου. Συνεχίζουμε χρησιμοποιώντας προεκπαιδευμένες αρχιτεκτονικές trans formers, δηλαδή το Robustly Optimized BERT Pretraining Approach (RoBERTa) και το Audio Spectrogram Transformer (AST), για να ταξινομήσουμε μουσικές δημιουργίες σε 9 ξεχωριστές κατηγορίες συναισθημάτων και ειδών, χρησιμοποιώντας τους στίχους, τον ήχο και έναν συνδυασμό των δύο. Τέλος, αναζητούμε μεθόδους για να εξηγήσουμε κάθε μοντέλο και προτείνουμε έναν τρόπο για τη δημιουργία πολυτροπικών επεξηγήσεων από στίχους και ήχο, χρησιμοποιώντας τη δύναμη του LIME [51] και την ηχητική του εφαρμογή audioLIME [25]. Τέλος δημιουργούμε συνολικούς συνδιασμούς [35] των εξηγήσεων LIME, παρέχοντας πληροφορίες για την απόδοση των μοντέλων και την ικανότητά τους να ανιχνεύουν μοτίβα και στοιχεία που είναι διακριτά για κάθε κατηγορία. | el |
heal.advisorName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Βουλόδημος, Αθανάσιος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 101 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: