HEAL DSpace

Ημερολογιοποίηση Ομιλητών με Βάση την Οπτική Πληροφορία

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κόλλιας, Στέφανος el
dc.contributor.author Σαραφιανός, Νικόλαος Κ. el
dc.contributor.author Sarafianos, Nikolaos K. en
dc.date.accessioned 2013-07-22T10:07:59Z
dc.date.available 2013-07-22T10:07:59Z
dc.date.copyright 2013-07-12 -
dc.date.issued 2013-07-22
dc.date.submitted 2013-07-12 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/8422
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.13164
dc.description 110 σ. el
dc.description.abstract H παρούσα διπλωματική εργασία μελετά το πρόβλημα της Ημερολογιοποίησης Ομιλητών με βάση την οπτική πληροφορία που εξάγεται από ένα βίντεο. Η Ημερολογιοποίηση Ομιλητών αποτελεί ένα ιδιαίτερα ενεργό πεδίο της Αναγνώρισης Προτύπων εξαιτίας της ολοένα και αυξανόμενης ανάγκης εξαγωγής και επεξεργασίας των πληροφοριών που περιέχονται στα πολυμέσα. Βρίσκει εφαρμογές σε ανίχνευση πνευματικών δικαιωμάτων, σε επιστημονικούς κλάδους που ασχολούνται με αυτόματη ανάλυση συμπεριφοράς, ενώ ταυτόχρονα, είναι μια πολύ σημαντική διαδικασία για ανάκτηση πληροφοριών με εφαρμογές σε επιστημονικά πεδία όπως η προσαρμογή των ομιλητών για αυτόματη ανίχνευση φωνής. Συγκεκριμένα η εργασία μας επικεντρώνεται στην εξαγωγή οπτικών χαρακτηριστικών τα οποία να είναι ικανά για διαχωρισμό ομιλητών και σε συνδυασμό με μεθόδους που δημιουργούν ένα πιο αντιπροσωπευτικό χώρο χαρακτηριστικών, ομαδοποιούμε τα χαρακτηριστικά ώστε να δοθεί απάντηση στο αρχικό ερώτημα του “Ποιος μίλησε και πότε”. Αρχικά δίνεται έμφαση σε μεθόδους χωρισμού ενός βίντεο σε μικρότερα τμήματα που ονομάζονται shots. Αφού αναφέρουμε τις βασικές μεθόδους που χρησιμοποιούνται στη βιβλιογραφία, συγκρίνουμε τα αποτελέσματα και επισημαίνουμε τη συμβολή του χωρισμού ενός βίντεο σε επιμέρους shots στην Ημερολογιοποίηση Ομιλητών. Στη συνέχεια, αφού περιγράψουμε με λεπτομέρεια όλα τα στάδια της μεθόδου ανίχνευσης προσώπου των Viola & Jones, ερευνάμε τεχνικές εξαγωγής χαρακτηριστικών από αυτό. Επιδιώκουμε στη συνέχεια τη μείωση των διαστάσεων του αρχικού χώρου των παραπάνω χαρακτηριστικών και συνεπώς μελετήσαμε και υλοποιήσαμε τεχνικές μείωσης των διαστάσεων σε ένα μικρότερο χώρο. Η κυριότερη μέθοδος με την οποία ασχοληθήκαμε ονομάζεται FLsD και δεδομένου ότι εκμεταλλεύεται τα πλεονεκτήματα υπαρχόντων μεθόδων μείωσης των διαστάσεων επιτυγχάνει πολύ καλύτερα αποτελέσματα. Επιπλέον στο χώρο όπου έχουν μειωθεί πια οι διαστάσεις επιχειρούμε να ομαδοποιήσουμε τα τελικά μας δεδομένα σε ομάδες οι οποίες θα αντιστοιχούν σε ομιλητές. Η αξιολόγηση όλων των παραπάνω τεχνικών και μεθόδων γίνεται μέσω πειραμάτων με τη βοήθεια των οποίων μας δίνεται η δυνατότητα να οπτικοποιήσουμε τα αποτελέσματα μας και να εξάγουμε συμπεράσματα για την απόδοση της μεθόδου Ημερολογιοποίησης Ομιλητών που προτείνουμε. Επιπλέον επισημαίνουμε τα περιθώρια βελτίωσης που υπάρχουν στην εν λόγω μέθοδο με στόχο να προσφέρουμε πολλαπλές κατευθύνσεις για μελλοντική εργασία. el
dc.description.abstract The objective of this thesis is visual-based speaker diarization in videos. Speaker diarization is a notably active field of pattern recognition due to the increasing need for extraction and processing of information contained in multimedia. Speaker diarization is applied in copyright detection and in scientific fields that deal with automatic behavior analysis. It is also a significant procedure for information retrieval with applications in scientific fields such as speaker adaptation for automatic voice detection. Specifically, our work focuses, in particular, on the extraction of speaker discriminant visual characteristics and in collaboration with dimensionality reduction methods that create a more representative feature space, we cluster our features in order to answer the initial question “Who spoke when”. Firstly we give emphasis in methods for video segmentation methods that result in shorter video segments called shots. Once we have mentioned the basic state-of-the-art methods, we compare the results and point out the contribution of video segmentation in shots in the speaker diarization problem. After describing with detail all the steps of the face detection method of Viola \& Jones, we investigate face feature extraction techniques. Moreover, we focus our attention on reducing the dimensions of the initial space of the aforementioned features and as a result we studied and implemented dimensionality reduction techniques. The main method being used in this thesis is called FLsD which takes advantage of the benefits of the existing dimensionality reduction methods and achieves far better results. In the reduced feature space, we applied some clustering methods in order to gather the features in groups, each one of which will correspond to a speaker. The evaluation of all the above techniques is performed through experiments in order to visualize the results and to draw conclusions about the performance of our speaker diarization method. Finally, we point out margin improvements of the current method, aiming to provide several directions for future work. en
dc.description.statementofresponsibility Νικόλαος Κ. Σαραφιανός el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Αναγνώριση προτύπων el
dc.subject Ημερολογιοποίηση ομιλητών el
dc.subject Ανίχνευση προσώπου el
dc.subject Εξαγωγή χαρακτηριστικών el
dc.subject Μείωση διαστάσεων el
dc.subject Pattern recognition en
dc.subject Speaker diarization en
dc.subject Face detection en
dc.subject Feature extraction en
dc.subject Dimensionality reduction en
dc.title Ημερολογιοποίηση Ομιλητών με Βάση την Οπτική Πληροφορία el
dc.title.alternative Visual Based Speaker Diarization en
dc.type bachelorThesis el (en)
dc.date.accepted 2013-07-11 -
dc.date.modified 2013-07-12 -
dc.contributor.advisorcommitteemember Στάμου, Γεώργιος el
dc.contributor.advisorcommitteemember Γιαννακόπουλος, Θεόδωρος el
dc.contributor.committeemember Κόλλιας, Στέφανος el
dc.contributor.committeemember Στάμου, Γεώργιος el
dc.contributor.committeemember Γιαννακόπουλος, Θεόδωρος el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Η/Υ. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. el
dc.date.recordmanipulation.recordcreated 2013-07-22 -
dc.date.recordmanipulation.recordmodified 2013-07-22 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής