Αυτόματη αναγνώριση συγχορδίας με μεθόδους μηχανικής μάθησης

Ντερβάκος, Έντμοντ - Γρηγόρης; Ntervakos, Entmont - Grigoris

dc.contributor.author	Ντερβάκος, Έντμοντ - Γρηγόρης	el
dc.contributor.author	Ntervakos, Entmont - Grigoris	en
dc.date.accessioned	2018-10-15T10:35:29Z
dc.date.available	2018-10-15T10:35:29Z
dc.date.issued	2018-10-15
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/47801
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.15924
dc.rights	Default License
dc.subject	Τεχνητά νευρωνικά δίκτυα	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Ανάκτηση πληροφορίας από μουσική	el
dc.subject	Συγχορδίες	el
dc.subject	Artificial neural networks	en
dc.subject	Spotify	en
dc.subject	Machine learning	en
dc.subject	Music information retrieval	en
dc.subject	Chord recognition	en
dc.subject	Ανάλυση ήχου	el
dc.title	Αυτόματη αναγνώριση συγχορδίας με μεθόδους μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Τεχνητή νοημοσύνη	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2018-07-03
heal.abstract	Η Αυτόματη Αναγνώριση Συγχορδίας είναι κομβικό έργο για τον τομέα της ανάκτησης πληροφορίας από μουσική. Οι συγχορδίες κωδικοποιούν την αρμονική πληροφορία ενός κομματιού και καθορίζουν σε μεγάλο βαθμό το μεταδιδόμενο συναίσθημα. Για μουσικούς είναι ίσως το αποδοτικότερο μέσο επικοινωνίας όταν αυτοί παίζουν σε σύνολο, ενώ σε κάποιες περιπτώσεις οι αλληλουχίες συγχορδιών αντικαθιστούν την αναλυτική παρτιτούρα. Όπως με τα περισσότερα έργα του τομέα ανάκτησης πληροφορίας από μουσική, τα συστήματα αυτόματης αναγνώρισης συγχορδίας ακολουθούν την τάση να αντικαθιστούν στάδια επεξεργασίας σήματος, εξαγωγής χαρακτηριστικών και στατιστικών μοντέλων με αρχιτεκτονικές βαθιάς μηχανικής μάθησης. Στην παρούσα εργασία ακολουθήθηκε ο πιο παραδοσιακός δρόμος, και για την πρόβλεψη χρησιμοποιήθηκαν υψηλού επιπέδου χαρακτηριστικά - αυτά που παρέχει το Spotify μέσω του API του. Αυτά περιέχουν τμηματοποιήσεις του κομματιού μουσικής, με επιπλέον χαρακτηριστικά να αντιστοιχούν σε κάθε τμήμα. Για το πειραματικό μέρος της εργασίας εκπαιδεύτηκαν διαφορετικά νευρωνικά δίκτυα με σκοπό να αναγνωρίζουν τη συγχορδία που ακούγεται σε κάθε τμήμα από την τμηματοποίηση που παρέχει το Spotify. Συγκεκριμένα χρησιμοποιήθηκαν: Απλό Multi Layer Perceptron ή Feedforward Νευρωνικά Δίκτυα ή FNN, Συνελικτικά Νευρωνικά Δίκτυα ή CNN, η παραλλαγή του Αναδρομικού Νευρωνικού δικτύου Μακράς Βραχυπρόθεσμης Μνήμης ή LSTM καθώς και μια πιο πολύπλοκη αρχιτεκτονική, τον Κωδικοποιητή -Αποκωδικοποιητή LSTM - (LSTM Encoder Decoder). Το σύνολο εκπαίδευσης αποτελούνταν από συνδυασμό συνόλων δεδομένων επισημειωμένων με συγχορδίες ανά χρονική στιγμή, που χρησιμοποιούνται ευρέως στη βιβλιογραφία. Αξιολογήθηκε η συμπεριφορά των μοντέλων με διαφορετικές παραμέτρους, διαφορετικά χαρακτηριστικά καθώς και η αποτελεσματικότητα τεχνικών προ-επεξεργασίας δεδομένων όπως η επαύξηση και το φιλτράρισμα των δεδομένων.	el
heal.abstract	Audio Chord Recognition (ACR) is perhaps one of the most important tasks in the area of Music Information Retrieval (MIR). Chords are a representation of harmony in music, and harmony largely determines the effects of music on humans, such as feelings conveyed. Chord transcriptions are the most efficient way to communicate musical ideas in an ensemble of musicians and in some cases they replace actual sheet music. As with many MIR tasks, there is a shift occurring in the ACR state-of-the-art, moving from statistical models and high level feature extraction, to Deep Learning, thus alleviating most of the need for signal processing [4]. For this thesis, ACR was attempted on high level features obtained through Spotify’s open API. These features include segmentations of each track, with corresponding features assigned to each segment. For the experimental part of the thesis, different architectures of Artificial Neural Networks were trained to classify each segment of a song to a chord. Models used include: Feedforward Neural Networks, Convolutional Neural Networks, Recurrent Neural Networks in the form of LSTM and a more complex Encoder-Decoder architecture with LSTM layers. The dataset used consisted of a combination of chord-labeled songs which are used every year for the MIREX chord estimation task [8]. For all models, we explored the effects of using different data preprocessing methods, such as data augmentation and data filtering, different features, and evaluated all models on a separate test set.	en
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας - Γεώργιος	el
heal.committeeMemberName	Παπασπύρου, Νικόλαος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	102 σ.
heal.fullTextAvailability	true