dc.contributor.author |
Αϊδίνης, Αθανάσιος
|
el |
dc.contributor.author |
Aidinis, Athanasios
|
en |
dc.date.accessioned |
2025-01-08T11:12:32Z |
|
dc.date.available |
2025-01-08T11:12:32Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/60651 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.28347 |
|
dc.description |
Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" |
el |
dc.rights |
Default License |
|
dc.subject |
Audio chord estimation |
en |
dc.subject |
Deep learning |
en |
dc.subject |
Cnn |
en |
dc.subject |
Neural networks |
en |
dc.subject |
Transfer learning |
en |
dc.subject |
Εκτίµηση συγχορδιών από ήχο |
el |
dc.subject |
Βαθιά μάθηση |
el |
dc.subject |
Νευρωνικά δίκτυα |
el |
dc.subject |
Μεταφορά μάθησης |
el |
dc.subject |
Συνελικτικά δίκτυα |
el |
dc.title |
Αναγνώριση συγχορδιών με τη χρήση μοντέλων βαθιάς μάθησης |
el |
dc.title |
Chord Recognition using Deep Learning Techniques |
en |
heal.type |
masterThesis |
|
heal.classification |
Μηχανική μάθηση |
el |
heal.classification |
Machine learning |
en |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2024-07-16 |
|
heal.abstract |
Η παϱούσα διπλωµατική εργασία παϱουσιάϹει µια καινοτόµα προσέγγιση για την αναγνώριση συγχορδιών από ήχο, µε στόχο την αυτόµατη ταυτοποίηση και ταξινόµηση των
ϐασικών δοµών συγχορδιών σε µουσικά κοµµάτια. Αξιοποιώντας Συνελικτικά Νευρωνικά
∆ίκτυα (CNNs) µε ∆ισδιάστατες Στρώσεις Μακροπρόθεσµης Βραχυπρόθεσµης Μνήµης (biLSTM), προχωρηµένη διαδικασία εξαγωγής χαρακτηριστικών, και τεχνικές µετά-επεξεϱγασίας
ϐασισµένες στη µουσική ϑεωρία, η έρευνά µας συµβάλει στην ϐελτίωση της ακϱίϐειας και
της ανθεκτικότητας των συστηµάτων αναγνώρισης συγχορδιών. Με την εξαγωγή χαρακτηριστικών από αναπαραστάσεις συγχορδιών όπως η ϱίϹα, το µπάσο και οι ποιότητες τριάδας,
και την τµηµατοποίηση του προβλήµατος σε διακριτά συστατικά, το πλαίσιο µας ϑέτει γεϱά
ϑεµέλια για την ενίσχυση την ακϱίϐεια της αναγνώρισης συγχορδιών. Επιπλέον, χρησιµοποιούµε τεχνικές µεταϕοϱάς µάϑησης (Transfer Learning) για να εκµεταλλευτούµε πϱοεκπαιδευµένα µοντέλα, τα οποία προσαρµόζουµε για τη συγκεκριµένη µας εργασία µεϱών
των συγχορδιών, ϐελτιώνοντας έτσι τη γενίκευση και την ανθεκτικότητα. Επιπρόσθετα, η
έρευνά µας εξετάζει διάφορους µετασχηµατισµούς Fourier για την εξαγωγή χαρακτηριστικών, συµπεριλαµβανοµένων των Βραχυπρόθεσµων Μετασχηµατισµών Fourier (STFT) και
του Συνεχούς Μετασχηµατισµού Q (CQT), για να συλλάβει ϐασικές πληροφορίες από τα
ηχητικά σήµατα και να ϐελτιστοποιήσει την απόδοση της αναγνώρισης συγχορδιών. Μέσα
από εκτεταµένα πειράµατα και αξιολόγηση διαφορετικών διαµορφώσεων CNN και biLSTM,
καθώς και τεχνικών µετά-επεξεϱγασίας, η προσέγγισή µας επιδεικνύει σηµαντικά σηµεία
ϐελτίωσης στην ακϱίϐεια αναγνώρισης συγχορδιών. Συνολικά, αυτή η έρευνα συµβάλλει ένα
ολοκληϱωµένο πλαίσιο που αξιοποιεί µεϑοδολογίες ϐαθιάς µάϑησης, προηγµένη µηχανική
χαρακτηριστικών και τεχνικές µετά-επεξεϱγασίας, αναδεικνύοντας το δυναµικό της να προωθήσει τα συστήµατα ανάκτησης µουσικών πληροφοριών. |
el |
heal.abstract |
This thesis presents an innovative approach to audio chord recognition, aiming to
automatically identify and classify fundamental chord structures within music pieces.
Leveraging Convolutional Neural Networks (CNNs) with Bidirectional Long Short-Term
Memory (biLSTM) layers, advanced feature engineering, and post-processing techniques
rooted in music theory, our research enhances the accuracy and robustness of chord
recognition systems. By extracting features from chord representations such as root,
bass, and triad qualities, and segmenting the problem into distinct components, our
framework creates a solid ground to enhance the accuracy of chord recognition. Additionally, we employ transfer learning techniques to capitalize on pre-trained models,
fine-tuning them for our specific chord recognition task, thus improving generalization
and robustness. Moreover, our exploration encompasses various Fourier transforms for
feature extraction, including Short-Time Fourier Transform (STFT) and Constant Q Transform (CQT), to capture essential information from audio signals and optimize chord recognition performance. Through extensive experimentation and evaluation of different CNN
and biLSTM configurations, as well as post-processing techniques, our approach demonstrates significant enhancements in several aspectes of chord recognition. Overall, this
research contributes a comprehensive framework that leverages deep learning methodologies, sophisticated feature engineering, and post-processing techniques, showcasing
its potential to advance music information retrieval systems. |
en |
heal.advisorName |
Βουλόδημος, Αθανάσιος |
el |
heal.advisorName |
Voulodimos, Athanasios |
en |
heal.committeeMemberName |
Βουλόδημος, Αθανάσιος |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας Γεώργιος |
el |
heal.committeeMemberName |
Stafylopatis, Andreas Georgios |
en |
heal.committeeMemberName |
Voulodimos, Athanasios |
en |
heal.committeeMemberName |
Stamou, Georgios |
en |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.fullTextAvailability |
false |
|