H παρούσα διπλωματική εργασία μελετά το πρόβλημα της Ημερολογιοποίησης Ομιλητών με βάση την οπτική πληροφορία που εξάγεται από ένα βίντεο. Η Ημερολογιοποίηση Ομιλητών αποτελεί ένα ιδιαίτερα ενεργό πεδίο της Αναγνώρισης Προτύπων εξαιτίας της ολοένα και αυξανόμενης ανάγκης εξαγωγής και επεξεργασίας των πληροφοριών που περιέχονται στα πολυμέσα. Βρίσκει εφαρμογές σε ανίχνευση
πνευματικών δικαιωμάτων, σε επιστημονικούς κλάδους που ασχολούνται με αυτόματη ανάλυση συμπεριφοράς, ενώ ταυτόχρονα, είναι μια
πολύ σημαντική διαδικασία για ανάκτηση πληροφοριών με εφαρμογές σε επιστημονικά πεδία όπως η προσαρμογή των ομιλητών για
αυτόματη ανίχνευση φωνής.
Συγκεκριμένα η εργασία μας επικεντρώνεται στην εξαγωγή οπτικών χαρακτηριστικών τα οποία να είναι ικανά για διαχωρισμό ομιλητών και
σε συνδυασμό με μεθόδους που δημιουργούν ένα πιο αντιπροσωπευτικό χώρο χαρακτηριστικών, ομαδοποιούμε τα χαρακτηριστικά ώστε να δοθεί απάντηση στο αρχικό ερώτημα του “Ποιος μίλησε και πότε”.
Αρχικά δίνεται έμφαση σε μεθόδους χωρισμού ενός βίντεο σε μικρότερα τμήματα που ονομάζονται shots. Αφού αναφέρουμε τις
βασικές μεθόδους που χρησιμοποιούνται στη βιβλιογραφία, συγκρίνουμε τα αποτελέσματα και επισημαίνουμε τη συμβολή του χωρισμού ενός βίντεο σε επιμέρους shots στην Ημερολογιοποίηση Ομιλητών. Στη συνέχεια, αφού περιγράψουμε με λεπτομέρεια όλα τα στάδια
της μεθόδου ανίχνευσης προσώπου των Viola & Jones, ερευνάμε τεχνικές εξαγωγής χαρακτηριστικών από αυτό.
Επιδιώκουμε στη συνέχεια τη μείωση των διαστάσεων του αρχικού χώρου των παραπάνω χαρακτηριστικών και συνεπώς μελετήσαμε και
υλοποιήσαμε τεχνικές μείωσης των διαστάσεων σε ένα μικρότερο χώρο. Η κυριότερη μέθοδος με την οποία ασχοληθήκαμε ονομάζεται
FLsD και δεδομένου ότι εκμεταλλεύεται τα πλεονεκτήματα υπαρχόντων μεθόδων μείωσης των διαστάσεων επιτυγχάνει πολύ
καλύτερα αποτελέσματα. Επιπλέον στο χώρο όπου έχουν μειωθεί πια οι διαστάσεις επιχειρούμε να ομαδοποιήσουμε τα τελικά μας
δεδομένα σε ομάδες οι οποίες θα αντιστοιχούν σε ομιλητές. Η αξιολόγηση όλων των παραπάνω τεχνικών και μεθόδων γίνεται μέσω
πειραμάτων με τη βοήθεια των οποίων μας δίνεται η δυνατότητα να οπτικοποιήσουμε τα αποτελέσματα μας και να εξάγουμε συμπεράσματα για την απόδοση της μεθόδου Ημερολογιοποίησης Ομιλητών που προτείνουμε. Επιπλέον επισημαίνουμε τα περιθώρια βελτίωσης που υπάρχουν στην εν λόγω μέθοδο με στόχο να προσφέρουμε πολλαπλές κατευθύνσεις για μελλοντική εργασία.
The objective of this thesis is visual-based speaker diarization in videos. Speaker diarization is a notably active field
of pattern recognition due to the increasing need for extraction and processing of information contained in multimedia. Speaker
diarization is applied in copyright detection and in scientific fields that deal with automatic behavior analysis. It is also a
significant procedure for information retrieval with applications in scientific fields such as speaker adaptation for automatic
voice detection.
Specifically, our work focuses, in particular, on the extraction of speaker discriminant visual characteristics and in
collaboration with dimensionality reduction methods that create a more representative feature space, we cluster our features in
order to answer the initial question “Who spoke when”.
Firstly we give emphasis in methods for video segmentation methods that result in shorter video segments called shots.
Once we have mentioned the basic state-of-the-art methods, we compare the results and point out the contribution of video
segmentation in shots in the speaker diarization problem. After describing with detail all the steps of the face detection method of
Viola \& Jones, we investigate face feature extraction techniques.
Moreover, we focus our attention on reducing the dimensions of the initial space of the aforementioned features and as a
result we studied and implemented dimensionality reduction techniques. The main method being used in this thesis is called FLsD
which takes advantage of the benefits of the existing dimensionality reduction methods and achieves far better results.
In the reduced feature space, we applied some clustering methods in order to gather the features in groups, each one of which will correspond to a speaker. The evaluation of all the above techniques is performed through experiments in order to visualize the results and to draw conclusions about the performance of our speaker diarization method. Finally, we point out margin improvements of the current method, aiming to provide several directions for future work.