HEAL DSpace

Αναγνώριση συγχορδιών με τη χρήση μοντέλων βαθιάς μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Αϊδίνης, Αθανάσιος el
dc.contributor.author Aidinis, Athanasios en
dc.date.accessioned 2025-01-08T11:12:32Z
dc.date.available 2025-01-08T11:12:32Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60651
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28347
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Audio chord estimation en
dc.subject Deep learning en
dc.subject Cnn en
dc.subject Neural networks en
dc.subject Transfer learning en
dc.subject Εκτίµηση συγχορδιών από ήχο el
dc.subject Βαθιά μάθηση el
dc.subject Νευρωνικά δίκτυα el
dc.subject Μεταφορά μάθησης el
dc.subject Συνελικτικά δίκτυα el
dc.title Αναγνώριση συγχορδιών με τη χρήση μοντέλων βαθιάς μάθησης el
dc.title Chord Recognition using Deep Learning Techniques en
heal.type masterThesis
heal.classification Μηχανική μάθηση el
heal.classification Machine learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-16
heal.abstract Η παϱούσα διπλωµατική εργασία παϱουσιάϹει µια καινοτόµα προσέγγιση για την αναγνώριση συγχορδιών από ήχο, µε στόχο την αυτόµατη ταυτοποίηση και ταξινόµηση των ϐασικών δοµών συγχορδιών σε µουσικά κοµµάτια. Αξιοποιώντας Συνελικτικά Νευρωνικά ∆ίκτυα (CNNs) µε ∆ισδιάστατες Στρώσεις Μακροπρόθεσµης Βραχυπρόθεσµης Μνήµης (biLSTM), προχωρηµένη διαδικασία εξαγωγής χαρακτηριστικών, και τεχνικές µετά-επεξεϱγασίας ϐασισµένες στη µουσική ϑεωρία, η έρευνά µας συµβάλει στην ϐελτίωση της ακϱίϐειας και της ανθεκτικότητας των συστηµάτων αναγνώρισης συγχορδιών. Με την εξαγωγή χαρακτηριστικών από αναπαραστάσεις συγχορδιών όπως η ϱίϹα, το µπάσο και οι ποιότητες τριάδας, και την τµηµατοποίηση του προβλήµατος σε διακριτά συστατικά, το πλαίσιο µας ϑέτει γεϱά ϑεµέλια για την ενίσχυση την ακϱίϐεια της αναγνώρισης συγχορδιών. Επιπλέον, χρησιµοποιούµε τεχνικές µεταϕοϱάς µάϑησης (Transfer Learning) για να εκµεταλλευτούµε πϱοεκπαιδευµένα µοντέλα, τα οποία προσαρµόζουµε για τη συγκεκριµένη µας εργασία µεϱών των συγχορδιών, ϐελτιώνοντας έτσι τη γενίκευση και την ανθεκτικότητα. Επιπρόσθετα, η έρευνά µας εξετάζει διάφορους µετασχηµατισµούς Fourier για την εξαγωγή χαρακτηριστικών, συµπεριλαµβανοµένων των Βραχυπρόθεσµων Μετασχηµατισµών Fourier (STFT) και του Συνεχούς Μετασχηµατισµού Q (CQT), για να συλλάβει ϐασικές πληροφορίες από τα ηχητικά σήµατα και να ϐελτιστοποιήσει την απόδοση της αναγνώρισης συγχορδιών. Μέσα από εκτεταµένα πειράµατα και αξιολόγηση διαφορετικών διαµορφώσεων CNN και biLSTM, καθώς και τεχνικών µετά-επεξεϱγασίας, η προσέγγισή µας επιδεικνύει σηµαντικά σηµεία ϐελτίωσης στην ακϱίϐεια αναγνώρισης συγχορδιών. Συνολικά, αυτή η έρευνα συµβάλλει ένα ολοκληϱωµένο πλαίσιο που αξιοποιεί µεϑοδολογίες ϐαθιάς µάϑησης, προηγµένη µηχανική χαρακτηριστικών και τεχνικές µετά-επεξεϱγασίας, αναδεικνύοντας το δυναµικό της να προωθήσει τα συστήµατα ανάκτησης µουσικών πληροφοριών. el
heal.abstract This thesis presents an innovative approach to audio chord recognition, aiming to automatically identify and classify fundamental chord structures within music pieces. Leveraging Convolutional Neural Networks (CNNs) with Bidirectional Long Short-Term Memory (biLSTM) layers, advanced feature engineering, and post-processing techniques rooted in music theory, our research enhances the accuracy and robustness of chord recognition systems. By extracting features from chord representations such as root, bass, and triad qualities, and segmenting the problem into distinct components, our framework creates a solid ground to enhance the accuracy of chord recognition. Additionally, we employ transfer learning techniques to capitalize on pre-trained models, fine-tuning them for our specific chord recognition task, thus improving generalization and robustness. Moreover, our exploration encompasses various Fourier transforms for feature extraction, including Short-Time Fourier Transform (STFT) and Constant Q Transform (CQT), to capture essential information from audio signals and optimize chord recognition performance. Through extensive experimentation and evaluation of different CNN and biLSTM configurations, as well as post-processing techniques, our approach demonstrates significant enhancements in several aspectes of chord recognition. Overall, this research contributes a comprehensive framework that leverages deep learning methodologies, sophisticated feature engineering, and post-processing techniques, showcasing its potential to advance music information retrieval systems. en
heal.advisorName Βουλόδημος, Αθανάσιος el
heal.advisorName Voulodimos, Athanasios en
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας Γεώργιος el
heal.committeeMemberName Stafylopatis, Andreas Georgios en
heal.committeeMemberName Voulodimos, Athanasios en
heal.committeeMemberName Stamou, Georgios en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής