Αυτόματη αναγνώριση ανθρώπινων δράσεων με εμπλουτισμένες αναπαραστάσεις βίντεο

Μαυρουδή, Ευφροσύνη; Mavroudi, Effrosyni

dc.contributor.author	Μαυρουδή, Ευφροσύνη	el
dc.contributor.author	Mavroudi, Effrosyni	en
dc.date.accessioned	2015-09-07T11:25:01Z
dc.date.available	2015-09-07T11:25:01Z
dc.date.issued	2015-09-07
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/41196
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.11531
dc.rights	Default License
dc.subject	Αναγνώριση ανθρώπινων δράσεων	el
dc.subject	Action recognition	en
dc.subject	Αναπαράσταση βίντεο	el
dc.subject	Πυκνές τροχιές	el
dc.subject	Ανάλυση σε κύριες συνιστώσες	el
dc.subject	Στοίχιση ακολουθιών	el
dc.subject	Action recognition	en
dc.subject	Video representations	en
dc.subject	Dense trajectories	en
dc.subject	PCA	en
dc.subject	Sequence alignment	en
dc.title	Αυτόματη αναγνώριση ανθρώπινων δράσεων με εμπλουτισμένες αναπαραστάσεις βίντεο	el
heal.type	bachelorThesis
heal.classification	Όραση υπολογιστών	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2015-07-16
heal.abstract	Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της αυτόματης αναγνώρισης ανθρώπινων δράσεων σε ρεαλιστικά βίντεο εστιάζοντας σε μεθόδους αναπαράστασης των βίντεο. Για την εξαγωγή χαρακτηριστικών εκμεταλλευόμαστε την πλούσια πληροφορία κίνησης που μας προσφέρουν τα διαδεδομένα χαρακτηριστικά Πυκνών Τροχιών. Σημαντικό μέρος της εργασίας αφιερώνεται στην ανάλυση των μεθόδων που χρησιμοποιούνται για την αναγνώριση των δράσεων, με ιδιαίτερη έμφαση σε επιτυχημένες σύγχρονες μεθόδους αναπαράστασης βίντεο, όπως οι Bag-Of-Visual-Words και VLAD. Αρχικά, πραγματοποιείται εκτενής πειραματισμός με διάφορες γνωστές μεθόδους εξαγωγής χαρακτηριστικών και υπολογισμού αναπαραστάσεων για την επίλυση του προβλήματος της αναγνώρισης συνεχόμενων δράσεων σε RGB-D βίντεο, τα οποία περιέχουν δράσεις που εκτελούνται από ηλικιωμένα άτομα. Στη συνέχεια, προτείνουμε δύο νέες μεθόδους αναπαράστασης βίντεο. Η πρώτη μέθοδος μοντελοποιεί την αλληλεπίδραση μεταξύ των συστάδων οπτικών χαρακτηριστικών (τροχιών) ποσοτικοποιώντας την κατευθυνόμενη ομοιότητα μεταξύ των συστάδων με το συνδυασμό εργαλείων όπως η Ανάλυση σε Κύριες Συνιστώσες και η απόκλιση Kullback-Leibler. Η δεύτερη μέθοδος αναπαριστά τα βίντεο ως χρονικές ακολουθίες συχνά εμφανιζόμενων οπτικών λέξεων, αποσκοπώντας στην μοντελοποίηση της εγγενούς χρονικής διάταξης των κινήσεων που αποτελούν μια δράση. Επιπρόσθετα, προτείνεται μέθοδος υπολογισμού της απόστασης μεταξύ αυτών των ακολουθιών οπτικών λέξεων με χρήση αλγορίθμου τοπικής στοίχισης συμβολικών ακολουθιών, που μας επιτρέπει την ταξινόμησή τους με χρήση SVMs. Η πειραματική αξιολόγηση των μεθόδων μας σε απαιτητικές βάσεις ανθρώπινων δράσεων επιβεβαιώνει την αποτελεσματικότητά τους, καθώς επιτυγχάνουν επιδόσεις που ξεπερνούν αυτές αρκετών γνωστών μεθόδων και είναι συγκρίσιμες με αυτές των καλύτερων σύγχρονων μεθόδων αναπαράστασης βίντεο της διεθνούς βιβλιογραφίας.	el
heal.abstract	This thesis deals with the problem of automatic human action recognition in realistic videos, focusing on video representation methods. For feature extraction, we exploit the rich motion information captured in the state-of-the-art “Dense Trajectories” features. A significant part of this work is devoted to the analysis of action recognition methods, with a special focus on successful modern video representations, such as Bag-Of-Visual-Words and VLAD. We experiment with various popular feature extraction methods and video representations in the context of action classification and temporal localization in continuous RGB-D videos, which contain actions performed by elderly people. Furthermore, we propose two novel video representation methods. The first method models the interaction between clusters of visual features, quantifying the directional similarity between clusters, combining tools such as the Principal Component Analysis and the Kullback-Leibler divergence. The other method represents videos as temporal sequences of frequently occurring visual words, aiming at the modelling of the inherent temporal order of motions constituting an action. We also propose a method for the computation of distances between these visual word sequences, using a local sequence alignment algorithm, which enables their classification with Support Vector Machines. The experimental evaluation of our methods in demanding human action datasets confirms their efficacy, since they achieve high action recognition accuracy, outperforming many popular video representations and they are comparable with recently published top-performing video representations.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όραση Υπολογιστών, Επικοινωνία Λόγου και Επεξεργασία Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	165 σ.
heal.fullTextAvailability	true