dc.contributor.author |
Μελέτης, Γεώργιος Κωνσταντίνος
|
el |
dc.contributor.author |
Meletis, Georgios Konstantinos
|
en |
dc.date.accessioned |
2021-07-18T18:57:07Z |
|
dc.date.available |
2021-07-18T18:57:07Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/53641 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.21339 |
|
dc.rights |
Default License |
|
dc.subject |
Παραγωγικά μοντέλα |
el |
dc.subject |
Παραγωγή ήχου |
el |
dc.subject |
Συνελικτικά νευρωνικά δίκτυα |
el |
dc.subject |
Συνελικτικός Variational Auroencoder |
el |
dc.subject |
Αναπαράσταση ήχου |
el |
dc.subject |
Generative models |
en |
dc.subject |
Sound generation |
en |
dc.subject |
Variational autoencoder |
en |
dc.subject |
Sound representation |
en |
dc.subject |
Convolutional variational autoencoder |
en |
dc.title |
Σύνθεση ήχων περιβάλλοντος πόλης µε χρήση αλγορίθµων βαθιάς µηχανικής µάθησης |
el |
dc.title |
Urban Sound Generation using deep learning techniques |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Νευρωνικά δίκτυα |
el |
heal.classification |
Neural Networks |
en |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2020-11-18 |
|
heal.abstract |
Η εξέλιξη των νευρωνικών δικτύων και της µηχανικής µάθησης γίνεται ολοένα και πιο ραγδαία, µε τις δυνατότητες τους να ξεπερνούν κάθε νέο όριο που συναντούν. Ένα πρόβληµα που τεστάρει τις δυνατότητες των νευρωνικών δικτύων σε πολύ υψηλό επίπεδο, είναι η διαδικασία παραγωγής νέων δεδοµένων. Η κατηγορία των δικτύων που ασχολούνται µε την διαδικασία παραγωγής νέων δεδοµένων έχει λιγότερο από µια δεκαετία που άρχισε να αναπτύσσεται, διότι οι απαιτήσεις σε υπολογιστικούς πόρους είναι πολύ υψηλές. Τα πιο γνωστά δίκτυα παραγωγής δεδοµένων είναι τα Generative Adversarial Networks (GANs) και οι Variational Autoencoders (VAEs).
Η παραγωγή ήχου µε τη χρήση νευρωνικών δικτύων έχει επικεντρωθεί στην παραγωγή ήχων µε υψηλό βαθµό οργάνωσης, όπως η µουσική. Στον τοµέα αυτό έχουν εξελιχθεί πολύ ικανά δίκτυα, των οποίων οι δυνατότητες προσεγγίζουν γοργά τις δυνατότητες ενός ικανού συνθέτη µουσικής. Παρόλα αυτά, δεν έχει δοθεί τόση σηµασία στην παραγωγή ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι του φυσικού περιβάλλοντος, καθώς η τυχαιότητα που καλούµαστε να αντιµετωπίσουµε αυξάνει αυτόµατα τις απαιτήσεις σε υπολογιστική ισχύ. Έτσι δεν φαίνεται να έχει δοθεί µια εκτίµηση για το ποια κατηγορία δικτύων ή ποια µορφή αναπαράστασης τέτοιων ήχων είναι η ιδανική ώστε να υλοποιηθεί µια παραγωγική διαδικασία.
Η παρούσα εργασία ασχολείται µε την σύνθεση ήχων µε υψηλό βαθµό τυχαιότητας, όπως οι ήχοι που συναντά κανείς σε ένα αστικό περιβάλλον και µε το κατά πόσο ένα νευρωνικό δίκτυο µπορεί από µια οπτική αναπαράσταση των ήχων αυτών να παράγει παρόµοιους αλλά εντελώς νέους ήχους. Οι αναπαραστάσεις που ελέγχονται και αξιολογούνται στα πλαίσια της εργασίας, είναι καθαρά οπτικές αναπαραστάσεις του ήχου και αφορούν το φασµατογράφηµα (Spectrogram), το φασµατογράφηµα mel (Mel-spectrogram) και τους συντελεστές συχνότητας Cepstral του Mel (Mel-Frequency Cepstral Coefficients - MFCCs). Το δίκτυο που επιλέχθηκε ως βάση για έρευνα, είναι ο VAE και συγκεκριµένα µια παραλλαγή του, η οποία στηρίζεται στο συνδυασµό των συνελικτικών δικτύων (CNN) µε τον VAE και ονοµάζεται Convolutional Variational Autoencoder (CVAE). Τα αποτελέσµατα έδειξαν πως οι οπτικές αναπαραστάσεις του ήχου µπορεί να έχουν λιγότερο κόστος σε µνήµη, αλλά έχουν ως αποτέλεσµα την απώλεια σηµαντικής πληροφορίας. Η αναπαράσταση που έδωσε τα καλύτερα αποτελέσµατα φάνηκε να ήταν το φασµατογράφηµα-Mel, µε την αναπαράσταση MFFC να ακολουθεί και τέλος το απλό φασµατογράφηµα. Η αρχιτεκτονική των βαθιών νευρωνικών δικτύων που χρησιµοποιήθηκε φάνηκε να παίζει µικρό ρόλο σε σχέση µε την ποιότητα και την ποσότητα των δεδοµένων εκπαίδευσης, καθώς φάνηκε να προσεγγίζουν το µέγιστο των δυνατοτήτων τους µε βάση τα δεδοµένα που τους παρασχέθηκαν. Τα αποτελέσµατα δείχνουν πως η καταλληλότητα των VAE για την παραγωγή νέων ήχων στηρίζεται κατά κύριο λόγο στην ποιότητα και την ποσότητα των διαθέσιµων δεδοµένων. Η παρούσα υλοποίηση δείχνει πρώιµα αλλά σηµαντικά αποτελέσµατα πάνω στην παραγωγή ήχου υψηλής τυχαιότητας από δίκτυα VAE και βάζει τις βάσεις για πιο εξελιγµένα παραγωγικά µοντέλα που χωρίς αµφιβολία θα δηµιουργηθούν στο προσεχές µέλλον. |
el |
heal.abstract |
The evolution of neural networks and machine learning is becoming more and more rapid and
they consistently surpass any new limit they encounter. One problem that tests the capabilities of
neural networks at a very high level is the process of generating new data. The category of networks
involved in the process of generating new data has been developing for less than a decade, because
the computing resources demands are very high. The most well-known data generation networks
are Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs).
Sound production using neural networks has focused on producing sounds with a high degree
of organization, such as music. Very capable networks have developed in this field, the capabilities
of which are rapidly approaching the capabilities of a competent music composer. However, not as
much importance has been given to the production of sounds with a high degree of randomness,
like the sounds of the natural environment, as the randomness we are called to deal with
automatically increases the computing power requirements. Thus no assessment seems to have
been made as to which category of networks or what form of representation of such sounds is ideal
in order to carry out a data producing process.
This project deals with the synthesis of sounds with a high degree of randomness, such as the
sounds encountered in an urban environment and whether a neural network can produce similar
but completely new sounds from a visual representation of these sounds. The representations that
are checked and evaluated in the context of the work are purely visual representations of sound and
concern the spectrogram, the Mel-spectrogram and the Mel-Frequency Cepstral Coefficients
(MFCCs). The network chosen as the basis for research is VAE and specifically a variant of it, which
is based on the combination of convolutional neural networks (CNNs) with VAE and is called
Convolutional Variational Autoencoder (CVAE). The results showed that visual representations of
sound may cost less memory, but result in the loss of important information. The representation
that gave the best results appeared to be the Mel-spectrogram, followed by the MFFC
representation and the normal spectroscopy. The deep neural network architectures used, seemed
to play a small role in relation to the quality and quantity of training data, as they seemed to
approach their maximum potential based on the data provided to them.
The results show that the suitability of VAE for the production of new sounds is based mainly
on the quality and quantity of available data. The present implementation shows early but
significant results on the production of high-randomness sound from VAE networks and lays the
foundations for the production of more sophisticated models that will certainly be created in the
near future. |
en |
heal.advisorName |
Στάμου, Γεώργιος |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.committeeMemberName |
Κόλλιας, Στέφανος |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
92 σ. |
el |
heal.fullTextAvailability |
false |
|