Η Ανάκτηση Μουσικής Πληροφορίας είναι ένας διεπιστημονικός τομέας έρευνας με αντικείμενο την ανάκτηση πληροφορίας από μουσικές ηχογραφήσεις. Η Αυτόματη Καταγραφή Μουσικής εντάσσεται στα πλαίσια της Ανάκτησης Μουσικής Πληροφορίας. Στόχος της είναι να εξάγει από ένα ακουστικό σήμα τα pitches των νοτών και τις χρονικές στιγμές που εμφανίζονται καθώς και να αναγνωρίσει από ποιό όργανο παράχθηκαν. Αφού εξαχθεί αυτή η πληροφορία πρέπει να αναπαρασταθεί σε μία μορφή που να είναι εύκολα αναγνωρίσιμη από τους μουσικούς και η οποία θα μπορούσε να χρησιμοποιηθεί για την αναπαραγωγή της αρχικής ηχογράφησης. Η Αυτόματη
Καταγραφή Μουσικής, και κυρίως πολυφωνικής μουσικής, είναι ένα από τα προβλήματα της Ψηφιακής Επεξεργασίας Ηχητικών Σημάτων που παραμένει ανοιχτό. Μέχρι στιγμής καμία εφαρμογή δεν έχει καταφέρει να φτάσει τις ικανότητες ενός εκπαιδευμένου μουσικού. Σκοπός αυτής της διπλωματικής εργασίας είναι η μελέτη και η ανάπτυξη τεχνικών και αλγορίθμων για την Αυτόματη Καταγραφή Μουσικής παιγμένης στο πιάνο. Η εκτενής ανασκόπηση της σχετικής με την Αυτόματη Καταγραφή Μουσικής βιβλιογραφίας συνοδεύεται από την παρουσίαση μίας πρωτότυπης μεθόδου ανίχνευσης της αρχής (onset) της νότας για μονοφωνική μουσική παιγμένη στο πιάνο και μίας πρωτότυπης μεθόδου εκτίμησης πολλαπλών τόνων για συγχορδίες παιγμένες στο πιάνο. Η ανίχνευση των onsets βασίζεται στον ενεργειακό τελεστή Teager-Kaiser και σε μία συστοιχία φίλτρων Gabor, που έχουν τις συχνότητες των κλειδιών του πιάνου σαν κεντρικές συχνότητες. Αντίστοιχα, η μέθοδος εκτίμησης πολλαπλών τόνων υπολογίζει τον DTFT του μουσικού σήματος στις συγκεκριμένες συχνότητες που αντιστοιχούν στις νότες του πιάνου. Ο βαθμός πολυφωνίας K είναι άγνωστος και επομένως ο προτεινόμενος αλγόριθμος στοχεύει αφενός στο να συνάγει το K και αφετέρου στο να βρει τις θεμελιώδεις συχνότητες. Αυτό γίνεται σειριακά, ξεκινώντας από μία μονοφωνική υπόθεση και συνεχίζοντας με εύλογους συνδυασμούς μεγαλύτερου βαθμού πολυφωνίας. Ως υποψήφιοι συνδυασμοί νοτών επιλέγονται αυτοί που ερμηνεύουν καλύτερα το παρατηρούμενο φάσμα καθώς και κάποιες ιδιότητες που προκύπτουν από τα δεδομένα με μία διαδικασία εκπαίδευσης. Ο τελικός συνδυασμός που επιλέγεται είναι αυτός με το ελάχιστο τετραγωνικό σφάλμα. Τα πειραματικά μας αποτελέσματα δείχνουν καλή απόδοση και για τις δύο μεθόδους.
Music Information Retrieval is the interdisciplinary research area of retrieving information from music. Automatic Music Transcription is a field of Music Information Retrieval. It aims at extracting the pitches of notes and their timings from an audio signal as well as identifying which instrument generated them. After extracting that information it has to be represented in a form which is understandable to musicians and could be used to recreate the original audio. Automatic Music Transcription, especially for polyphonic music, is a problem of Audio Digital Signal Processing which remains open. Until today, an application that can reach the capabilities of a trained musician doesn’t exist. The goal of this diploma thesis is the study and the development of techniques and algorithms for the Automatic Piano Music Transcription. Apart from an extensive review of the relevant with Automatic Music Transcription literature, we present an onset detection method for monophonic piano music and a multiple fundamental frequency (F0) estimation method for polyphonic piano music. Onset detection is based on the Teager-Kaiser energy operator and a Gabor filter bank, having the frequencies of the piano keys as the central frequencies. Similarly, the multiple fundamental frequency estimation method evaluates the DTFT of the signal at the specific frequencies of the piano notes. The polyphony order K is unknown and thus the proposed algorithm aims at both inferring K and finding the fundamental frequencies. This is done sequentially, starting from a monophonic assumption and continuing with plausible combinations of higher polyphony order. Candidate combinations of notes are selected as best matching the spectrum and some properties learned from the data. The final combination which is selected is that of minimum squared error. Our experimental results show good performance for both methods.