Η παρούσα διατριβή αφορά στο πρόβλημα της κατάτμησης και ομαδοποίησης αρχείων ομιλίας σε ομιλητές, πρόβλημα το οποίο απαντάται στη διεθνή βιβλιογραφία με τον όρο speaker diarization. Είναι ένα πρόβλημα κομβικό, καθώς πολλές εφαρμογές επεξεργασίας ανθρώπινης φωνής απαιτούν μία τέτοια βαθμίδα ως στάδιο προεπεξεργασίας. Θέλουν δηλαδή έναν μηχανισμό ο οποίος να είναι σε θέση αξιόπιστα και μέσα σε ένα εύλογο χρονικό διάστημα να εκτιμήσει α) πόσοι είναι οι συμμετέχοντες ομιλητές και β) σε ποιές χρονικές περιόδους μιλάει ο καθένας.
Το πρόβλημα αυτό έχει ένα ιδιαίτερο χαρακτηριστικό που το καθιστά ταυτόχρονα δυσεπίλυτο και ελκυστικό, καθώς δεν υπάρχει καμία εκ των προτέρων πληροφορία όσον αφορά στον αριθμό και την ταυτότητα των ομιλητών. Επαφίεται έτσι στον αλγόριθμο να εκτιμήσει τα μοντέλα των ομιλητών και τον αριθμό τους, ομαδοποιώντας κατάλληλα τα διανύσματα χαρακτηριστικών που αποτελούν το αρχείο. Ο τομέας της μάθησης μηχανών με στατιστικές τεχνικές (statistical machine learning) έχει αναπτύξει πλήθος αλγόριθμων μη-επιβλεπόμενης ομαδοποίησης. Ωστόσο, οι περισσότεροι εξ αυτών απαιτούν a priori γνώση του αριθμού των ομάδων. Εδώ ακριβώς έγκειται και η ελκυστικότητα του προβλήματος. Ο αλγόριθμος πρέπει να λειτουργήσει τυφλά.
Στην παρούσα διατριβή αρχικά παρουσιάζουμε υπάρχουσες μεθόδους και τεχνικές που έχουν κατά καιρούς προταθεί και χρησιμοποιούνται στην πράξη. Κατόπιν, διατυπώνουμε τις δικές μας προσεγγίσεις και βελτιώσεις. Κατά τη διάρκεια αυτής της διατριβής ασχοληθήκαμε με μία σειρά από θέματα που κείνται είτε στην καρδιά είτε στην περιφέρεια του προβλήματος. Εξερευνήσαμε εναλλακτικές μοντελοποιήσεις πολλές από τις οποίες δανειστήκαμε από άλλους τομείς της αναγνώρισης προτύπων, όπως της επεξεργασίας εικόνας, βίντεο και φυσικής γλώσσας. Τρεις είναι κατά βάση οι προτάσεις και εξελίξεις που προκύπτουν από αυτή τη διατριβή.
α) Η πρώτη σχετίζεται με την ανάπτυξη μίας πιθανοτικής απόστασης μεταξύ τμημάτων ομιλίας, η οποία συνδυάζει δυαδικούς ταξινομητές και ροές πληροφορίας. Ένα ιδιαίτερο χαρακτηριστικό της μεθόδου είναι η κατάτμηση του χώρου εισόδου και η εκπαίδευση ενός μοντέλου για κάθε κατηγορία, έτσι ώστε η απόφαση να προκύπτει ως πιθανοτικός συνδυασμός των αποκρίσεων καθε μοντέλου. Τέλος, εξετάζουμε τη χρήση Μπεϋσιανών τεχνικών για να ενισχύσουμε τη στιβαρότητα στην εκτίμηση των παραμέτρων των μοντέλων.
β) Η δεύτερη συνεισφορά της διατριβής αφορά στην αναδιατύπωση ενός από τα πλέον θεμελιώδη και πολυχρησιμοποιούμενα κριτήρια ομαδοποίησης ομιλητών, το Μπεϋσιανό Κριτήριο Πληροφορίας (BIC). Εμβαθύνοντας στο μαθηματικό υπόβαθρο του κριτηρίου, αποδεικνύουμε ότι οι και δύο μορφές του (ολική και τοπική) που χρησιμοποιούνται είναι υποβέλτιστες για το πρόβλημα ομαδοποίησης ομιλητών. Χρησιμοποιώντας ως μέσο ανάλυσης τις εκ των προτέρων κατανομές των παραμέτρων τις οποίες το BIC υπονοεί, προτείνουμε μία νέα μορφή του, την τμηματική, η οποία προσφέρει σημαντικότατη αύξηση στην ακρίβεια ομαδοποίησης. Δείχνουμε τέλος ότι η χρήση εκ των προτέρων κατανομών Dirichlet στις πιθανότητες μετάβασης μεταξύ καταστάσεων είναι ικανή να εμπλουτίσει το κριτήριο με χρονική πληροφορία, η οποία μένει ανεκμετάλλευτη με τις δύο τωρινές του μορφές.
γ) Η τελευταία συνεισφορά της διατριβής είναι η εξερεύνηση του δυνατοτήτων που παρέχει ο αλγορίθμος μετατόπισης του μέσου (mean-shift) στην ομαδοποίηση ομιλητών. Ο συγκεκριμένος αλγόριθμος έχει ήδη επιδείξει σημαντικά αποτελέσματα στον τομέα της επεξεργασίας εικόνας και έχει καθιερωθεί ως μια από τις δημοφιλέστερες μεθόδους μη-παραμετρικής επεξεργασίας. Δείχνουμε ότι ο συγκεκριμένος αλγόριθμος μπορεί να εφαρμοσθεί σε ευρύτερα προβλήματα ομαδοποίησης, όπου οι προς ομαδοποίηση οντότητες ανήκουν σε μη-Ευκλείδιους χώρους, όπως αυτοί των παραμέτρων στατιστικών μοντέλων και συγκεκριμένα Εκθετικών κατανομών. Κάνοντας εκτενή χρήση της Γεωμετρίας της Πληροφορίας (Information Geometry) προσαρμόζουμε κατάλληλα τον αλγόριθμο και αποδεικνύουμε ότι είναι σε θέση να υπερβεί σε ακρίβεια ομαδοποίησης την καθιερωμένη προσέγγιση της ιεραρχικής ομαδοποίησης.
Επιπλέον, για τις ανάγκες της διατριβής έγινε υλοποίηση του πλήρους σεναρίου προεπεξεργασίας - κατάτμησης - ομαδοποίησης με την οποία δομικάστηκαν οι διάφορες τεχνικές, σε Matlab και C++.
This thesis focuses on the problem of segmentation and clustering of audio files to speakers, of problem termed in literature as speaker diarization. It is considered as a central problem, since many applications that are related to speech technologies require it as a preprocessing step. They require an algorithm that is capable of estimating in a computationally efficient way (a) the number of speakers and (b) the time segments that each of the speakers is active.
Compared to other clustering and classification tasks, speaker diarization exhibits a pair of special characteristics that makes it both attractive and hard-to-tackle; the lack of knowledge of both the number of speakers and their identity. A proper algorithm should therefore estimate both their number and their density function, by grouping those utterances that belong to the same speaker. The statistical machine learning community has developed several clustering algorithms. However most of them require the number of clusters to be known beforehand. In speaker diarization though, the number of clusters should be estimated from the data, as well.
In the thesis we first present some of the main approaches to the problem that have been proposed. We then focus on our proposals, which are divided into the three following contributions.
(a) Our first contribution is the development of a probabilistic measure of discrepancy between two speech segments. This discrepancy aims to estimate the posterior probability of the segments to belong to different speakers. The proposed model is capable of combining an unlimited number of binary weak classifiers, each of which should be considered as a combination of a feature space, a statistical model, a statistical divergence and a threshold. Several such models are trained, one for every partition of the input space (i.e. a sensible combination of recording conditions, gender, segment duration, a.o.) and are combined into a single probabilistic mixture-of-experts model. The use of Maximum A Posteriori (MAP) training is also compared to the classical Maximum Likelihood estimation.\\
(b) The second contribution is a redefinition of one of the most frequently used approaches to speaker diarization, namely the Bayesian Information Criterion (BIC). By examining the Bayesian rationale for BIC, we show that both of its current versions (the global and the local) are suboptimal for speaker diarization. Using the implied priors of BIC, we we propose a new version, the segmental-BIC, that leads to a significant increase in diarization accuracy. We further show how the use of Dirichlet distribution over the transition matrix can enrich the BIC with temporal information, which is usually ignored when using the BIC.
(c) Our third and final contribution is the examination of the potentials that the mean shift algorithm offers to the problem of speaker diarization. This algorithm is highly used in the image processing and computer vision and has been established a milestone in nonparametric segmentation. We show that it can be used to tackle more general clustering tasks, where the entities lie on non-Euclidean spaces, like those of statistical parametric models of exponential families. Using elements of Information Geometry and a Bayesian framework, we adapt the original algorithm and show that is capable of increasing the diarization accuracy when compared to the standard hierarchical clustering approach.
All algorithms have been developed in Matlab and C++ programming languages.