Στην εργασία μελετούμε ειδικές αναπαραστάσεις χρόνου-συχνότητας τετραγωνικά ολοκληρώσιμων συναρτήσεων και ακολουθιών και εξετάζουμε κατά πόσον οι αναπαραστάσεις αυτές μπορούν να χρησιμοποιηθούν στην αυτόματη τμηματοποίηση σημάτων φωνής.
Αναλυτικότερα, στο πρώτο κεφάλαιο εξετάζονται οι ορθοκανονικές αναπαραστάσεις Gabor και αποδεικνύονται δύο βασικοί περιορισμοί τους:
1. Το πλέγμα χρόνου-συχνότητας των ατόμων Gabor δεν δεν μπορείνα είναι αυθαίρετα πυκνό. Πυκνά πλέγματα οδηγούν σε γραμμικώς εξαρτημένα άτομα Gabor .
2. Τα στοιχεία ορθοκανονικών βάσεων Gabor ή οι φασματικές αναπαραστάσεις τους έχουν άπειρη διασπορά, γεγονός που επηρεάζει σημαντικά την τοπικότητα των αναπαραστάσεων (θεώρημα Balian-Low).
Στο δεύτερο κεφάλαιο δείχνουμε ότι είναι δυνατόν να επιτύχουμε τοπικότητα ταυτόχρονα σε σχόνο και συχνότητα με την επιβολή ειδικών συνθηκών στα στοιχεία Gabor. Οι ορθοκανονικές βάσεις που δημιουργούνται με τον τρόπο είναι γνωστές ως βάσεις Malvar ή τοπικές τριγωνομετρικές βάσεις.
Στο τρίτο κεφάλαιο η θεωρία των βάσεων Malvar διατυπώνεται για τις τετραγωνικά αθροίσιμες ακολουθίες (σήματα διακριτού χρόνου).
Στο τέταρτο κεφάλαιο εξετάζουμε κατά πόσον διαφορετικές βάσεις Malvar μπορούν να χρησιμοποιηθούν για την ταυτοποίηση των ορίων μεταξύ γειτονικών φωνημάτων σημάτων φωνής. Δίνουμε επίσης παραδείγματα της επιτυχίας της μεθόδου σε συνθετικά και φυσικά σήματα φωνής.
In the thesis we study special time-frequency representations of square summable functions and sequences and investigate their application to blind speech segmentation.
In particular the 1st chapter proves two basic constraints of orthonormal Gabor bases:
1. The time-frequency lattices of orthogonal Gabor atoms cannot be arbitrarily dense. Dense lattices generate linearly dependent Gabor representations.
2. All orthogonal Gabor bases or their spectral representations have infinite variance, therefore poor localizing properties (Balian-Low theorem).
In the second chapter we show that we can design orhonormal bases with good localization in both time and frequency by imposing specific conditions on the initial Gabor atoms. The generated orthonormal bases are known as Malvar or local trigonometric bases.
The third chapter expands Malvar theory to square summable sequences (discrete-time signals).
In the fourth chapter we explore the application of different Malvar bases to blind speech segmentation and provide evidence of the success of our method to synthetic signals as well as natural speech.