dc.contributor.author |
Μαυρουδή, Ευφροσύνη
|
el |
dc.contributor.author |
Mavroudi, Effrosyni
|
en |
dc.date.accessioned |
2015-09-07T11:25:01Z |
|
dc.date.available |
2015-09-07T11:25:01Z |
|
dc.date.issued |
2015-09-07 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/41196 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.11531 |
|
dc.rights |
Default License |
|
dc.subject |
Αναγνώριση ανθρώπινων δράσεων |
el |
dc.subject |
Action recognition |
en |
dc.subject |
Αναπαράσταση βίντεο |
el |
dc.subject |
Πυκνές τροχιές |
el |
dc.subject |
Ανάλυση σε κύριες συνιστώσες |
el |
dc.subject |
Στοίχιση ακολουθιών |
el |
dc.subject |
Action recognition |
en |
dc.subject |
Video representations |
en |
dc.subject |
Dense trajectories |
en |
dc.subject |
PCA |
en |
dc.subject |
Sequence alignment |
en |
dc.title |
Αυτόματη αναγνώριση ανθρώπινων δράσεων με εμπλουτισμένες αναπαραστάσεις βίντεο |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Όραση υπολογιστών |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2015-07-16 |
|
heal.abstract |
Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της αυτόματης αναγνώρισης ανθρώπινων δράσεων σε ρεαλιστικά βίντεο εστιάζοντας σε μεθόδους αναπαράστασης των βίντεο. Για την εξαγωγή χαρακτηριστικών εκμεταλλευόμαστε την πλούσια πληροφορία κίνησης που μας προσφέρουν τα διαδεδομένα χαρακτηριστικά Πυκνών Τροχιών.
Σημαντικό μέρος της εργασίας αφιερώνεται στην ανάλυση των μεθόδων που χρησιμοποιούνται για την αναγνώριση των δράσεων, με ιδιαίτερη έμφαση σε επιτυχημένες σύγχρονες μεθόδους αναπαράστασης βίντεο, όπως οι Bag-Of-Visual-Words και VLAD. Αρχικά, πραγματοποιείται εκτενής πειραματισμός με διάφορες γνωστές μεθόδους εξαγωγής χαρακτηριστικών και υπολογισμού αναπαραστάσεων για την επίλυση του προβλήματος της αναγνώρισης συνεχόμενων δράσεων σε RGB-D βίντεο, τα οποία περιέχουν δράσεις που εκτελούνται από ηλικιωμένα άτομα.
Στη συνέχεια, προτείνουμε δύο νέες μεθόδους αναπαράστασης βίντεο. Η πρώτη μέθοδος μοντελοποιεί την αλληλεπίδραση μεταξύ των συστάδων οπτικών χαρακτηριστικών (τροχιών) ποσοτικοποιώντας την κατευθυνόμενη ομοιότητα μεταξύ των συστάδων με το συνδυασμό εργαλείων όπως η Ανάλυση σε Κύριες Συνιστώσες και η απόκλιση Kullback-Leibler. Η δεύτερη μέθοδος αναπαριστά τα βίντεο ως χρονικές ακολουθίες συχνά εμφανιζόμενων οπτικών λέξεων, αποσκοπώντας στην μοντελοποίηση της εγγενούς χρονικής διάταξης των κινήσεων που αποτελούν μια δράση. Επιπρόσθετα, προτείνεται μέθοδος υπολογισμού της απόστασης μεταξύ αυτών των ακολουθιών οπτικών λέξεων με χρήση αλγορίθμου τοπικής στοίχισης συμβολικών ακολουθιών, που μας επιτρέπει την ταξινόμησή τους με χρήση SVMs. Η πειραματική αξιολόγηση των μεθόδων μας σε απαιτητικές βάσεις ανθρώπινων δράσεων επιβεβαιώνει την αποτελεσματικότητά τους, καθώς επιτυγχάνουν επιδόσεις που ξεπερνούν αυτές αρκετών γνωστών μεθόδων και είναι συγκρίσιμες με αυτές των καλύτερων σύγχρονων μεθόδων αναπαράστασης βίντεο της διεθνούς βιβλιογραφίας. |
el |
heal.abstract |
This thesis deals with the problem of automatic human action recognition in realistic videos, focusing on video representation methods. For feature extraction, we exploit the rich motion information captured in the state-of-the-art “Dense Trajectories” features. A significant part of this work is devoted to the analysis of action recognition methods, with a special focus on successful modern video representations, such as Bag-Of-Visual-Words and VLAD. We experiment with various popular feature extraction methods and video representations in the context of action classification and temporal localization in continuous RGB-D videos, which contain actions performed by elderly people. Furthermore, we propose two novel video representation methods. The first method models the interaction between clusters of visual features, quantifying the directional similarity between clusters, combining tools such as the Principal Component Analysis and the Kullback-Leibler divergence. The other method represents videos as temporal sequences of frequently occurring visual words, aiming at the modelling of the inherent temporal order of motions constituting an action. We also propose a method for the computation of distances between these visual word sequences, using a local sequence alignment algorithm, which enables their classification with Support Vector Machines. The experimental evaluation of our methods in demanding human action datasets confirms their efficacy, since they achieve high action recognition accuracy, outperforming many popular video representations and they are comparable with recently published top-performing video representations. |
en |
heal.advisorName |
Μαραγκός, Πέτρος |
el |
heal.committeeMemberName |
Μαραγκός, Πέτρος |
el |
heal.committeeMemberName |
Τζαφέστας, Κωνσταντίνος |
el |
heal.committeeMemberName |
Ποταμιάνος, Γεράσιμος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όραση Υπολογιστών, Επικοινωνία Λόγου και Επεξεργασία Σημάτων |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
165 σ. |
|
heal.fullTextAvailability |
true |
|