HEAL DSpace

Αυτόματη αλλαγή μουσικού είδους σε συμβολική μορφή αναπαράστασης με χρήση βαθιών νευρωνικών δικτύων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κοφινάκος, Ορφεύς el
dc.contributor.author Kofinakos, Orfefs en
dc.date.accessioned 2022-02-28T21:31:33Z
dc.date.available 2022-02-28T21:31:33Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54881
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22579
dc.rights Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nd/3.0/gr/ *
dc.subject Τεχνητά νευρωνικά δίκτυα el
dc.subject Μεταφορά είδους el
dc.subject Ανάκτηση μουσικής πληροφορίας el
dc.subject Συμβολική μουσική αναπαράσταση el
dc.subject Αναδρομικά νευρωνικά δίκτυα el
dc.subject Artificial neural networks en
dc.subject Genre transfer en
dc.subject Music information retrieval en
dc.subject Symbolic music representation en
dc.subject Recurrent neural networks en
dc.title Αυτόματη αλλαγή μουσικού είδους σε συμβολική μορφή αναπαράστασης με χρήση βαθιών νευρωνικών δικτύων el
heal.type bachelorThesis
heal.classification Τεχνητή νοημοσύνη el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-07-15
heal.abstract Η εκτεταμένη χρήση τής Τεχνητής Νοημοσύνης στη μουσική, όπως και σε όλα τα πεδία καλλιτεχνικής δημιουργίας, έχει οδηγήσει σε αυξημένη ζήτηση από τους δημιουργούς για εργαλεία που θα επιτρέψουν την ακόμη πιο άμεση και ολοκληρωμένη παραγωγή έργων. Ένα δυνητικά πραγματοποιήσιμο τέτοιο εργαλείο είναι η μεταφορά μουσικών κομματιών από είδος σε είδος. Η διερεύνηση των πολλαπλών συνεργειών τής Τεχνητής Νοημοσύνης με τη μουσική και ειδικότερα αυτού τού εγχειρήματος έχει γίνει συχνό αντικείμενο έρευνας στο παρελθόν, με τη χρήση ηχητικών αρχείων. Η προσέγγιση που παρουσιάζεται σε αυτήν την εργασία διαφοροποιείται από τις προηγούμενες στο βαθμό που επιλέγει να εργαστεί με αρχεία συμβολικών δεδομένων (\en{MIDI}). Η επιλογή αυτή επιβάλλει την ανάλυση τής μουσικής σε επίπεδο σύνθεσης, καθώς μεταβλητές που εμφανίζονται στα ηχητικά αρχεία, όπως το ηχόχρωμα, απουσιάζουν. Η διαδικασία που ακολουθήσαμε ήταν να επιλέξουμε απλοποίηση τής κωδικοποίησης πληροφοριών σε μορφή επαρκή για την εκπαίδευση νευρωνικού δικτύου με αρχιτεκτονικές βαθιάς μηχανικής μάθησης. Οργανώσαμε πειράματα με ένα γενικό μοντέλο \en{autoencoder} με χρήση ξεχωριστών \en{decoder} για κάθε είδος και έναν καθολικό \en{encoder}. Το μοντέλο ακολουθεί το πρωτόκολλο ενός συνηθισμένου \en{encoder-decoder model} το οποίο αποτελεί τρόπο οργάνωσης επαναλαμβανόμενων νευρωνικών δικτύων \en{(RNN)} για χρήση σε προβλήματα πρόβλεψης \en{sequence-to-sequence} με χρήση \en{LSTM} με πολλαπλά \en{layers}, για εκπαίδευση σε μουσικά κομμάτια από το \en{Lakh Pianoroll Dataset}. Χρησιμοποιήθηκε στρατηγική \en{Teacher Forcing}, προκειμένου να βελτιστοποιηθεί η παραγωγή χρήσιμων αποτελεσμάτων. Το μοντέλο εφαρμόστηκε με κοινά γενικά χαρακτηριστικά αρχιτεκτονικής σε δύο μορφές αναπαράστασης. Παρήχθησαν πειράματα, τα οποία αξιολογήθηκαν με ταξινομητή, ενώ όσα έδωσαν ενδιαφέροντα αποτελέσματα υπεβλήθησαν και σε ανθρώπινη αξιολόγηση. Κατά την ολοκλήρωση τής εργασίας προέκυψαν σφάλματα, τα οποία εξηγούνται από την ποιότητα και την οργάνωση τού \en{dataset} αλλά και τού εύρους των επιλεγμένων μουσικών ειδών προς ανάλυση. Προέκυψε το συμπέρασμα ότι το εγχείρημα έχει εμφανή περιθώρια βελτίωσης, ενώ παρέχει χρήσιμες πληροφορίες για στοχευμένες μελλοντικές έρευνες που αργά ή γρήγορα θα οδηγήσουν στην παραγωγή τού εύχρηστου εργαλείου μεταποίησης το οποίο θελήσαμε να μελετήσουμε. el
heal.abstract The extensive use of AI in music, as in all fields of artistic creation, has led to increased demand from creators for tools that will allow for even more direct and complete production of works. A potentially feasible tool is to transfer music tracks from genre to genre. The research on the multiple synergies of AI with music and in particular this project (genre to genre) has become a frequent subject of research in the past, using audio files. The approach presented in this thesis differs from the previous ones to the extent that it chooses to work with symbolic data files (MIDI). This option requires the analysis of music at the synthesis level, as variables that appear in sound files, such as timbre, are absent. The process we followed was to choose to simplify the encoding of information in a format sufficient to train a neural network with deep machine learning architectures. We organized experiments with a generic autoencoder model using separate decoders for each genre and a universal encoder. The model follows the protocol of an ordinary encoder-decoder model which is a way of organizing repetitive neural networks (RNN) for use in sequence-to-sequence prediction problems using LSTM with multiple layers, by training with music tracks from Lakh Pianoroll Dataset. A Teacher Forcing strategy was used to optimise the production of useful results. The model was applied with common general architecture characteristics in two forms of representation. Experiments were produced, which were evaluated through a classifier, while those that gave interesting results were also subjected to human evaluation. Errors occurred at the completion of the work, which are explained by the quality and organization of the dataset and the wide range of the selected musical genres analyzed. It has been concluded that the project has obvious room for improvement, while providing useful information for targeted future research that will sooner or later lead to the production of the easy-to-use processing tool that we endeavoured to study. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 61 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα