Ο σκοπός της παρούσας διπλωματικής εργασίας ήταν η μελέτη της έννοιας της μουσικής ομοιότητας και η σύγκριση διαφόρων συστημάτων ταξινόμησης ως προς την επίδοση τους στην εκμάθηση ενός μέτρου απόστασης, το οποίο εκφράζει την ανομοιότητα μεταξύ δύο μουσικών κομματιών.
Χρησιμοποιώντας το σύνολο δεδομένων MagnaTagATune για εξαγωγή των μουσικών χαρακτηριστικών, και μετατρέποντας τις αξιολογήσεις των χρηστών που περιέχονται σε αυτό υπό την μορφή ψήφων ανομοιοτήτων σε περιορισμούς σχετικών αποστάσεων κατασκευάσαμε το πρόβλημα δυαδικής ταξινόμησης, το οποίο στοχεύει στην μάθηση του μέτρου απόστασης, που αντιστοιχεί στην ανομοιότητα των κομματιών.
Για την επίλυση του προβλήματος ταξινόμησης χρησιμοποιήθηκαν τόσο Τεχνητά Νευρωνικά Δίκτυα, όσο και Μηχανές Διανυσμάτων Υποστήριξης (SVM), καθώς και μια παραλλαγή Νευρωνικού Δικτύου επηρεασμένη από τα SVM, το SVNN.
Τέλος προκειμένου να αποκτήσουμε μια ποιοτική έποψη του αποτελέσματος του Νευρωνικού Δικτύου επιχειρήθηκε μια τρισδιάστατη απεικόνιση των μουσικών κομματιών της βάσης με χρήση της μεθόδου Multidimensional Scaling (MDS) καθώς και μια προσπάθεια ερμηνείας της σημαντικότητας των μουσικών χαρακτηριστικών που χρησιμοποιήθηκαν, βασιζόμενοι στο διάνυσμα συναπτικών βαρών του Νευρωνικού Δικτύου.
The purpose of this thesis was the study of the notion of music similarity and the comparison of the efficiency of several classification algorithms in learning a distance metric, that represents the dissimilarity between two music pieces.
Having used the MagnaTagATune dataset for the aid of feature extraction and after converting the user’s dissimilarity ratings, that accompany the tracks in the dataset, into relative distance constraints we define the binary classification problem, that aims to learn the distance metric, that represents the dissimilarities of the songs.
For the implementation of the classification problem Artificial Neural Networks (ANN) and Support Vectors Machines (SVM) have been used, as well as a Neural Network variation influenced by SVM’s, called SVNN.
Finally, in order to obtain a qualitative point of view of the output of the Neural Network model, we attempted a three-dimensional embedding of the musical clips included in the database using Multidimensional Scaling (MDS) and an attempt to interpret the significance of the musical features, based on the vector of synaptic weights of the Neural Network.