HEAL DSpace

Audio Signal Processing and Audio Fingerprinting: Implementing a Music Recognition System

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Νίκου, Χρήστος
dc.contributor.author Nikou, Christos
dc.date.accessioned 2024-04-04T08:40:33Z
dc.date.available 2024-04-04T08:40:33Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59099
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26795
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Song Identification en
dc.subject Audio Signal Processing en
dc.subject Audio Features en
dc.subject Music Information Retrieval en
dc.subject Contrastive Learning en
dc.subject Αναγνώριση Τραγουδιού el
dc.subject Επεξεργασία Ήχου el
dc.subject Χαρακτηριστικά Ήχου el
dc.subject Ανάκτηση Μουσικής Πληροφορίας el
dc.subject Αντιθετική Μάθηση el
dc.title Audio Signal Processing and Audio Fingerprinting: Implementing a Music Recognition System en
dc.contributor.department Επιστήμη Δεδομένων και Μηχανική Μάθηση el
heal.type masterThesis
heal.classification Μηχανική Μάθηση el
heal.classification Βαθιά Μάθηση el
heal.classification Επεξεργασία Ήχου el
heal.classification Ανάκτηση Μουσικής Πληροφορίας el
heal.classification Machine Learning en
heal.classification Deep Learning en
heal.classification Audio Signal Processing en
heal.classification Music Information Retrieval en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-11-03
heal.abstract Η αναγνώριση τραγουδιών είναι ένα από τα παλαιότερα και ίσως ένα από τα πιο διάσημα προβλήματα στην περιοχή της ανάκτησης μουσικής πληροφορίας. Μια από τις πιο γνωστές εμπορικές εφαρμογές για την αναγνώριση τραγουδιών είναι το Shazam. Ο αλγόριθμος του Shazam βασίζεται σε μια τεχνική που ονομάζεται «audio fingerprinting». Η τεχνική αυτή εξάγει μια συμπαγή αναπαράσταση από το ηχητικό σήμα εστιάζοντας στα τοπικά μέγιστα του φασματογράμματος. Με αυτόν τον τρόπο, ο αλγόριθμος αυτός επιτυγχάνει μια αναπαράσταση του ήχου που είναι ανθεκτική στον περιβάλλοντα θόρυβο που εμφανίζεται σε πραγματικές συνθήκες όπου η μουσική ηχογραφείται από φορητές συσκευές. Εν συνεχεία, αξιοποιώντας τεχνικές μη εξαντλητικής αναζήτησης, αυτή η αναπαράσταση συγκρίνεται με τις αναπαραστάσεις που βρίσκονται στη βάση, δίνοντας με αυτόν τον τρόπο γρήγορες απαντήσεις στους χρήστες. Παρ’ όλα αυτά, πρόσφατα η Google παρουσίασε μια διαφορετική προσέγγιση για το εν λόγω πρόβλημα αξιοποιώντας τις τεχνικές της βαθιάς μάθησης. Η βασική διαφορά είναι ότι σε αυτή την περίπτωση εκπαιδεύεται ένα νευρωνικό δίκτυο για την εξαγωγή της μουσικής πληροφορίας. Έτσι, στην παρούσα διπλωματική εργασία υλοποιούμε δύο συστήματα αναγνώρισης μουσικής, ένα για κάθε μια από αυτές τις δύο προσεγγίσεις, παρουσιάζοντας συγχρόνως και όλο το θεωρητικό υπόβαθρο. Συγκρίνουμε τα δύο αυτά συστήματα ως προς την απόδοση, τις απαιτήσεις χώρου και την κλιμακωσιμότητα. Στην περίπτωση της βαθιάς μάθησης παρουσιάζουμε μια καινοτόμα διαδικασία εμπλουτισμού των δεδομένων (data augmentation) η οποία βελτιώνει περαιτέρω την απόδοση του συστήματος συγκριτικά με ήδη υπάρχοντα συστήματα που αξιοποιούν την ίδια προσέγγιση. Με αυτόν τον τρόπο, το σύστημα καθίσταται κατάλληλο για εφαρμογές πραγματικού χρόνου. Η εργασία εστιάζει τόσο στα θεωρητικά όσο και στα πρακτικά μέρη της επεξεργασίας ήχου, ξεκινώντας από το θεμελιώδες εργαλείο του μετασχηματισμού Fourier και εν συνεχεία παρουσιάζοντας τις πιο σημαντικές τεχνικές και χαρακτηριστικά που χρησιμοποιούνται στον χώρο αυτό. Εξηγούμε αναλυτικά πώς λειτουργεί ο αλγόριθμος του Shazam και υλοποιούμε ένα σύστημα αναγνώρισης μουσικής που αξιοποιεί αυτόν τον αλγόριθμο χρησιμοποιώντας μια βιβλιοθήκη ανοικτού κώδικα. Στα τελευταία κεφάλαια παρουσιάζουμε την προσέγγιση της βαθιάς μάθησης και κατασκευάζουμε ένα σύστημα αναγνώρισης μουσικής εκπαιδεύοντας ένα νευρωνικό δίκτυο με τη βοήθεια του contrastive loss. Τέλος, παρουσιάζουμε τα πειράματα και τα αποτελέσματα που συγκρίνουν αυτές τις δύο μεθόδους. el
heal.abstract Song identification is one of oldest and perhaps one of the most popular Music Information Retrieval tasks. It has received a lot of attention in both academic research and the industry. One of the most well-known commercial applications for song identification is Shazam. Shazam’s algorithm is based on a technique called audio fingerprinting. It extracts a compact representation by hashing the spectral peaks on the spectrogram of the audio fragments. This way, Shazam achieves a representation that is robust to noise distortions that may occur in realistic scenarios where music is captured from portable devices. A non-exhaustive technique based on inverted lists allows for fast and efficient retrievals. However, recently, Google launched a totally different music recognition by utilizing the pioneering ideas of deep learning. Instead of inventing sophisticated audio representations, they trained a deep neural network to automatically extract robust and meaningful audio representations. In this thesis, we present how these two music recognition systems can be implemented, both theoretically and practically. We compare these two approaches in terms of their performance, storage requirements, and scalability. In the case of the deep learning approach, we introduce a novel data augmentation pipeline that further improves the performance of the overall system prior to already existing systems employing the same approach. This way, our system is ideal for real time applications. The thesis focuses on both the theoretical and practical aspects of audio signal processing. We begin from the fundamental concept of the Fourier Transform and we develop the theory by introducing the most important techniques and features used in audio signal processing nowadays. We explain how the algorithm of Shazam works, and we implement a music recognition using an open source library. In the last chapters, we turn our attention to deep learning. We introduce the basic concepts of deep learning and we develop a music recognition system by training a neural network with contrastive loss. Finally, we experimentally test the performance of these systems. en
heal.advisorName Καράντζαλος, Κωνσταντίνος
heal.committeeMemberName Γιαννακόπουλος, Θεόδωρος
heal.committeeMemberName Βουλόδημος, Αθανάσιος
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 158
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα