Ημερολογιοποίηση Ομιλητών με Βάση την Οπτική Πληροφορία

Σαραφιανός, Νικόλαος Κ.; Sarafianos, Nikolaos K.

dc.contributor.advisor	Κόλλιας, Στέφανος	el
dc.contributor.author	Σαραφιανός, Νικόλαος Κ.	el
dc.contributor.author	Sarafianos, Nikolaos K.	en
dc.date.accessioned	2013-07-22T10:07:59Z
dc.date.available	2013-07-22T10:07:59Z
dc.date.copyright	2013-07-12	-
dc.date.issued	2013-07-22
dc.date.submitted	2013-07-12	-
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/8422
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.13164
dc.description	110 σ.	el
dc.description.abstract	H παρούσα διπλωματική εργασία μελετά το πρόβλημα της Ημερολογιοποίησης Ομιλητών με βάση την οπτική πληροφορία που εξάγεται από ένα βίντεο. Η Ημερολογιοποίηση Ομιλητών αποτελεί ένα ιδιαίτερα ενεργό πεδίο της Αναγνώρισης Προτύπων εξαιτίας της ολοένα και αυξανόμενης ανάγκης εξαγωγής και επεξεργασίας των πληροφοριών που περιέχονται στα πολυμέσα. Βρίσκει εφαρμογές σε ανίχνευση πνευματικών δικαιωμάτων, σε επιστημονικούς κλάδους που ασχολούνται με αυτόματη ανάλυση συμπεριφοράς, ενώ ταυτόχρονα, είναι μια πολύ σημαντική διαδικασία για ανάκτηση πληροφοριών με εφαρμογές σε επιστημονικά πεδία όπως η προσαρμογή των ομιλητών για αυτόματη ανίχνευση φωνής. Συγκεκριμένα η εργασία μας επικεντρώνεται στην εξαγωγή οπτικών χαρακτηριστικών τα οποία να είναι ικανά για διαχωρισμό ομιλητών και σε συνδυασμό με μεθόδους που δημιουργούν ένα πιο αντιπροσωπευτικό χώρο χαρακτηριστικών, ομαδοποιούμε τα χαρακτηριστικά ώστε να δοθεί απάντηση στο αρχικό ερώτημα του “Ποιος μίλησε και πότε”. Αρχικά δίνεται έμφαση σε μεθόδους χωρισμού ενός βίντεο σε μικρότερα τμήματα που ονομάζονται shots. Αφού αναφέρουμε τις βασικές μεθόδους που χρησιμοποιούνται στη βιβλιογραφία, συγκρίνουμε τα αποτελέσματα και επισημαίνουμε τη συμβολή του χωρισμού ενός βίντεο σε επιμέρους shots στην Ημερολογιοποίηση Ομιλητών. Στη συνέχεια, αφού περιγράψουμε με λεπτομέρεια όλα τα στάδια της μεθόδου ανίχνευσης προσώπου των Viola & Jones, ερευνάμε τεχνικές εξαγωγής χαρακτηριστικών από αυτό. Επιδιώκουμε στη συνέχεια τη μείωση των διαστάσεων του αρχικού χώρου των παραπάνω χαρακτηριστικών και συνεπώς μελετήσαμε και υλοποιήσαμε τεχνικές μείωσης των διαστάσεων σε ένα μικρότερο χώρο. Η κυριότερη μέθοδος με την οποία ασχοληθήκαμε ονομάζεται FLsD και δεδομένου ότι εκμεταλλεύεται τα πλεονεκτήματα υπαρχόντων μεθόδων μείωσης των διαστάσεων επιτυγχάνει πολύ καλύτερα αποτελέσματα. Επιπλέον στο χώρο όπου έχουν μειωθεί πια οι διαστάσεις επιχειρούμε να ομαδοποιήσουμε τα τελικά μας δεδομένα σε ομάδες οι οποίες θα αντιστοιχούν σε ομιλητές. Η αξιολόγηση όλων των παραπάνω τεχνικών και μεθόδων γίνεται μέσω πειραμάτων με τη βοήθεια των οποίων μας δίνεται η δυνατότητα να οπτικοποιήσουμε τα αποτελέσματα μας και να εξάγουμε συμπεράσματα για την απόδοση της μεθόδου Ημερολογιοποίησης Ομιλητών που προτείνουμε. Επιπλέον επισημαίνουμε τα περιθώρια βελτίωσης που υπάρχουν στην εν λόγω μέθοδο με στόχο να προσφέρουμε πολλαπλές κατευθύνσεις για μελλοντική εργασία.	el
dc.description.abstract	The objective of this thesis is visual-based speaker diarization in videos. Speaker diarization is a notably active field of pattern recognition due to the increasing need for extraction and processing of information contained in multimedia. Speaker diarization is applied in copyright detection and in scientific fields that deal with automatic behavior analysis. It is also a significant procedure for information retrieval with applications in scientific fields such as speaker adaptation for automatic voice detection. Specifically, our work focuses, in particular, on the extraction of speaker discriminant visual characteristics and in collaboration with dimensionality reduction methods that create a more representative feature space, we cluster our features in order to answer the initial question “Who spoke when”. Firstly we give emphasis in methods for video segmentation methods that result in shorter video segments called shots. Once we have mentioned the basic state-of-the-art methods, we compare the results and point out the contribution of video segmentation in shots in the speaker diarization problem. After describing with detail all the steps of the face detection method of Viola \& Jones, we investigate face feature extraction techniques. Moreover, we focus our attention on reducing the dimensions of the initial space of the aforementioned features and as a result we studied and implemented dimensionality reduction techniques. The main method being used in this thesis is called FLsD which takes advantage of the benefits of the existing dimensionality reduction methods and achieves far better results. In the reduced feature space, we applied some clustering methods in order to gather the features in groups, each one of which will correspond to a speaker. The evaluation of all the above techniques is performed through experiments in order to visualize the results and to draw conclusions about the performance of our speaker diarization method. Finally, we point out margin improvements of the current method, aiming to provide several directions for future work.	en
dc.description.statementofresponsibility	Νικόλαος Κ. Σαραφιανός	el
dc.language.iso	el	en
dc.rights	ETDFree-policy.xml	en
dc.subject	Αναγνώριση προτύπων	el
dc.subject	Ημερολογιοποίηση ομιλητών	el
dc.subject	Ανίχνευση προσώπου	el
dc.subject	Εξαγωγή χαρακτηριστικών	el
dc.subject	Μείωση διαστάσεων	el
dc.subject	Pattern recognition	en
dc.subject	Speaker diarization	en
dc.subject	Face detection	en
dc.subject	Feature extraction	en
dc.subject	Dimensionality reduction	en
dc.title	Ημερολογιοποίηση Ομιλητών με Βάση την Οπτική Πληροφορία	el
dc.title.alternative	Visual Based Speaker Diarization	en
dc.type	bachelorThesis	el (en)
dc.date.accepted	2013-07-11	-
dc.date.modified	2013-07-12	-
dc.contributor.advisorcommitteemember	Στάμου, Γεώργιος	el
dc.contributor.advisorcommitteemember	Γιαννακόπουλος, Θεόδωρος	el
dc.contributor.committeemember	Κόλλιας, Στέφανος	el
dc.contributor.committeemember	Στάμου, Γεώργιος	el
dc.contributor.committeemember	Γιαννακόπουλος, Θεόδωρος	el
dc.contributor.department	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών.	el
dc.date.recordmanipulation.recordcreated	2013-07-22	-
dc.date.recordmanipulation.recordmodified	2013-07-22	-