HEAL DSpace

Σύνθεση ήχων περιβάλλοντος πόλης µε χρήση αλγορίθµων βαθιάς µηχανικής µάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μελέτης, Γεώργιος Κωνσταντίνος el
dc.contributor.author Meletis, Georgios Konstantinos en
dc.date.accessioned 2021-07-18T18:57:07Z
dc.date.available 2021-07-18T18:57:07Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/53641
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21339
dc.rights Default License
dc.subject Παραγωγικά μοντέλα el
dc.subject Παραγωγή ήχου el
dc.subject Συνελικτικά νευρωνικά δίκτυα el
dc.subject Συνελικτικός Variational Auroencoder el
dc.subject Αναπαράσταση ήχου el
dc.subject Generative models en
dc.subject Sound generation en
dc.subject Variational autoencoder en
dc.subject Sound representation en
dc.subject Convolutional variational autoencoder en
dc.title Σύνθεση ήχων περιβάλλοντος πόλης µε χρήση αλγορίθµων βαθιάς µηχανικής µάθησης el
dc.title Urban Sound Generation using deep learning techniques en
heal.type bachelorThesis
heal.classification Νευρωνικά δίκτυα el
heal.classification Neural Networks en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-11-18
heal.abstract Η εξέλιξη των νευρωνικών δικτύων και της µηχανικής µάθησης γίνεται ολοένα και πιο ραγδαία, µε τις δυνατότητες τους να ξεπερνούν κάθε νέο όριο που συναντούν. Ένα πρόβληµα που τεστάρει τις δυνατότητες των νευρωνικών δικτύων σε πολύ υψηλό επίπεδο, είναι η διαδικασία παραγωγής νέων δεδοµένων. Η κατηγορία των δικτύων που ασχολούνται µε την διαδικασία παραγωγής νέων δεδοµένων έχει λιγότερο από µια δεκαετία που άρχισε να αναπτύσσεται, διότι οι απαιτήσεις σε υπολογιστικούς πόρους είναι πολύ υψηλές. Τα πιο γνωστά δίκτυα παραγωγής δεδοµένων είναι τα Generative Adversarial Networks (GANs) και οι Variational Autoencoders (VAEs). Η παραγωγή ήχου µε τη χρήση νευρωνικών δικτύων έχει επικεντρωθεί στην παραγωγή ήχων µε υψηλό βαθµό οργάνωσης, όπως η µουσική. Στον τοµέα αυτό έχουν εξελιχθεί πολύ ικανά δίκτυα, των οποίων οι δυνατότητες προσεγγίζουν γοργά τις δυνατότητες ενός ικανού συνθέτη µουσικής. Παρόλα αυτά, δεν έχει δοθεί τόση σηµασία στην παραγωγή ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι του φυσικού περιβάλλοντος, καθώς η τυχαιότητα που καλούµαστε να αντιµετωπίσουµε αυξάνει αυτόµατα τις απαιτήσεις σε υπολογιστική ισχύ. Έτσι δεν φαίνεται να έχει δοθεί µια εκτίµηση για το ποια κατηγορία δικτύων ή ποια µορφή αναπαράστασης τέτοιων ήχων είναι η ιδανική ώστε να υλοποιηθεί µια παραγωγική διαδικασία. Η παρούσα εργασία ασχολείται µε την σύνθεση ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι που συναντά κανείς σε ένα αστικό περιβάλλον και µε το κατά πόσο ένα νευρωνικό δίκτυο µπορεί από µια οπτική αναπαράσταση των ήχων αυτών να παράγει παρόµοιους αλλά εντελώς νέους ήχους. Οι αναπαραστάσεις που ελέγχονται και αξιολογούνται στα πλαίσια της εργασίας, είναι καθαρά οπτικές αναπαραστάσεις του ήχου και αφορούν το φασµατογράφηµα (Spectrogram), το φασµατογράφηµα mel (Mel-spectrogram) και τους συντελεστές συχνότητας Cepstral του Mel (Mel-Frequency Cepstral Coefficients - MFCCs). Το δίκτυο που επιλέχθηκε ως βάση για έρευνα, είναι ο VAE και συγκεκριµένα µια παραλλαγή του, η οποία στηρίζεται στο συνδυασµό των συνελικτικών δικτύων (CNN) µε τον VAE και ονοµάζεται Convolutional Variational Autoencoder (CVAE). Τα αποτελέσµατα έδειξαν πως οι οπτικές αναπαραστάσεις του ήχου µπορεί να έχουν λιγότερο κόστος σε µνήµη, αλλά έχουν ως αποτέλεσµα την απώλεια σηµαντικής πληροφορίας. Η αναπαράσταση που έδωσε τα καλύτερα αποτελέσµατα φάνηκε να ήταν το φασµατογράφηµα-Mel, µε την αναπαράσταση MFFC να ακολουθεί και τέλος το απλό φασµατογράφηµα. Η αρχιτεκτονική των βαθιών νευρωνικών δικτύων που χρησιµοποιήθηκε φάνηκε να παίζει µικρό ρόλο σε σχέση µε την ποιότητα και την ποσότητα των δεδοµένων εκπαίδευσης, καθώς φάνηκε να προσεγγίζουν το µέγιστο των δυνατοτήτων τους µε βάση τα δεδοµένα που τους παρασχέθηκαν. Τα αποτελέσµατα δείχνουν πως η καταλληλότητα των VAE για την παραγωγή νέων ήχων στηρίζεται κατά κύριο λόγο στην ποιότητα και την ποσότητα των διαθέσιµων δεδοµένων. Η παρούσα υλοποίηση δείχνει πρώιµα αλλά σηµαντικά αποτελέσµατα πάνω στην παραγωγή ήχου υψηλής τυχαιότητας από δίκτυα VAE και βάζει τις βάσεις για πιο εξελιγµένα παραγωγικά µοντέλα που χωρίς αµφιβολία θα δηµιουργηθούν στο προσεχές µέλλον. el
heal.abstract The evolution of neural networks and machine learning is becoming more and more rapid and they consistently surpass any new limit they encounter. One problem that tests the capabilities of neural networks at a very high level is the process of generating new data. The category of networks involved in the process of generating new data has been developing for less than a decade, because the computing resources demands are very high. The most well-known data generation networks are Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs). Sound production using neural networks has focused on producing sounds with a high degree of organization, such as music. Very capable networks have developed in this field, the capabilities of which are rapidly approaching the capabilities of a competent music composer. However, not as much importance has been given to the production of sounds with a high degree of randomness, like the sounds of the natural environment, as the randomness we are called to deal with automatically increases the computing power requirements. Thus no assessment seems to have been made as to which category of networks or what form of representation of such sounds is ideal in order to carry out a data producing process. This project deals with the synthesis of sounds with a high degree of randomness, such as the sounds encountered in an urban environment and whether a neural network can produce similar but completely new sounds from a visual representation of these sounds. The representations that are checked and evaluated in the context of the work are purely visual representations of sound and concern the spectrogram, the Mel-spectrogram and the Mel-Frequency Cepstral Coefficients (MFCCs). The network chosen as the basis for research is VAE and specifically a variant of it, which is based on the combination of convolutional neural networks (CNNs) with VAE and is called Convolutional Variational Autoencoder (CVAE). The results showed that visual representations of sound may cost less memory, but result in the loss of important information. The representation that gave the best results appeared to be the Mel-spectrogram, followed by the MFFC representation and the normal spectroscopy. The deep neural network architectures used, seemed to play a small role in relation to the quality and quantity of training data, as they seemed to approach their maximum potential based on the data provided to them. The results show that the suitability of VAE for the production of new sounds is based mainly on the quality and quantity of available data. The present implementation shows early but significant results on the production of high-randomness sound from VAE networks and lays the foundations for the production of more sophisticated models that will certainly be created in the near future. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 92 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής