HEAL DSpace

Αυτόματη αναγνώριση συγχορδίας με μεθόδους μηχανικής μάθησης

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Ντερβάκος, Έντμοντ - Γρηγόρης el
dc.contributor.author Ntervakos, Entmont - Grigoris en
dc.date.accessioned 2018-10-15T10:35:29Z
dc.date.available 2018-10-15T10:35:29Z
dc.date.issued 2018-10-15
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/47801
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15924
dc.rights Default License
dc.subject Τεχνητά νευρωνικά δίκτυα el
dc.subject Μηχανική μάθηση el
dc.subject Ανάκτηση πληροφορίας από μουσική el
dc.subject Συγχορδίες el
dc.subject Artificial neural networks en
dc.subject Spotify en
dc.subject Machine learning en
dc.subject Music information retrieval en
dc.subject Chord recognition en
dc.subject Ανάλυση ήχου el
dc.title Αυτόματη αναγνώριση συγχορδίας με μεθόδους μηχανικής μάθησης el
heal.type bachelorThesis
heal.classification Τεχνητή νοημοσύνη el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-07-03
heal.abstract Η Αυτόματη Αναγνώριση Συγχορδίας είναι κομβικό έργο για τον τομέα της ανάκτησης πληροφορίας από μουσική. Οι συγχορδίες κωδικοποιούν την αρμονική πληροφορία ενός κομματιού και καθορίζουν σε μεγάλο βαθμό το μεταδιδόμενο συναίσθημα. Για μουσικούς είναι ίσως το αποδοτικότερο μέσο επικοινωνίας όταν αυτοί παίζουν σε σύνολο, ενώ σε κάποιες περιπτώσεις οι αλληλουχίες συγχορδιών αντικαθιστούν την αναλυτική παρτιτούρα. Όπως με τα περισσότερα έργα του τομέα ανάκτησης πληροφορίας από μουσική, τα συστήματα αυτόματης αναγνώρισης συγχορδίας ακολουθούν την τάση να αντικαθιστούν στάδια επεξεργασίας σήματος, εξαγωγής χαρακτηριστικών και στατιστικών μοντέλων με αρχιτεκτονικές βαθιάς μηχανικής μάθησης. Στην παρούσα εργασία ακολουθήθηκε ο πιο παραδοσιακός δρόμος, και για την πρόβλεψη χρησιμοποιήθηκαν υψηλού επιπέδου χαρακτηριστικά - αυτά που παρέχει το Spotify μέσω του API του. Αυτά περιέχουν τμηματοποιήσεις του κομματιού μουσικής, με επιπλέον χαρακτηριστικά να αντιστοιχούν σε κάθε τμήμα. Για το πειραματικό μέρος της εργασίας εκπαιδεύτηκαν διαφορετικά νευρωνικά δίκτυα με σκοπό να αναγνωρίζουν τη συγχορδία που ακούγεται σε κάθε τμήμα από την τμηματοποίηση που παρέχει το Spotify. Συγκεκριμένα χρησιμοποιήθηκαν: Απλό Multi Layer Perceptron ή Feedforward Νευρωνικά Δίκτυα ή FNN, Συνελικτικά Νευρωνικά Δίκτυα ή CNN, η παραλλαγή του Αναδρομικού Νευρωνικού δικτύου Μακράς Βραχυπρόθεσμης Μνήμης ή LSTM καθώς και μια πιο πολύπλοκη αρχιτεκτονική, τον Κωδικοποιητή -Αποκωδικοποιητή LSTM - (LSTM Encoder Decoder). Το σύνολο εκπαίδευσης αποτελούνταν από συνδυασμό συνόλων δεδομένων επισημειωμένων με συγχορδίες ανά χρονική στιγμή, που χρησιμοποιούνται ευρέως στη βιβλιογραφία. Αξιολογήθηκε η συμπεριφορά των μοντέλων με διαφορετικές παραμέτρους, διαφορετικά χαρακτηριστικά καθώς και η αποτελεσματικότητα τεχνικών προ-επεξεργασίας δεδομένων όπως η επαύξηση και το φιλτράρισμα των δεδομένων. el
heal.abstract Audio Chord Recognition (ACR) is perhaps one of the most important tasks in the area of Music Information Retrieval (MIR). Chords are a representation of harmony in music, and harmony largely determines the effects of music on humans, such as feelings conveyed. Chord transcriptions are the most efficient way to communicate musical ideas in an ensemble of musicians and in some cases they replace actual sheet music. As with many MIR tasks, there is a shift occurring in the ACR state-of-the-art, moving from statistical models and high level feature extraction, to Deep Learning, thus alleviating most of the need for signal processing [4]. For this thesis, ACR was attempted on high level features obtained through Spotify’s open API. These features include segmentations of each track, with corresponding features assigned to each segment. For the experimental part of the thesis, different architectures of Artificial Neural Networks were trained to classify each segment of a song to a chord. Models used include: Feedforward Neural Networks, Convolutional Neural Networks, Recurrent Neural Networks in the form of LSTM and a more complex Encoder-Decoder architecture with LSTM layers. The dataset used consisted of a combination of chord-labeled songs which are used every year for the MIREX chord estimation task [8]. For all models, we explored the effects of using different data preprocessing methods, such as data augmentation and data filtering, different features, and evaluated all models on a separate test set. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας - Γεώργιος el
heal.committeeMemberName Παπασπύρου, Νικόλαος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 102 σ.
heal.fullTextAvailability true


Files in this item

This item appears in the following Collection(s)

Show simple item record