HEAL DSpace

Αυτόματη αναγνώριση ανθρώπινων δράσεων με εμπλουτισμένες αναπαραστάσεις βίντεο

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Μαυρουδή, Ευφροσύνη el
dc.contributor.author Mavroudi, Effrosyni en
dc.date.accessioned 2015-09-07T11:25:01Z
dc.date.available 2015-09-07T11:25:01Z
dc.date.issued 2015-09-07
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/41196
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.11531
dc.rights Default License
dc.subject Αναγνώριση ανθρώπινων δράσεων el
dc.subject Action recognition en
dc.subject Αναπαράσταση βίντεο el
dc.subject Πυκνές τροχιές el
dc.subject Ανάλυση σε κύριες συνιστώσες el
dc.subject Στοίχιση ακολουθιών el
dc.subject Action recognition en
dc.subject Video representations en
dc.subject Dense trajectories en
dc.subject PCA en
dc.subject Sequence alignment en
dc.title Αυτόματη αναγνώριση ανθρώπινων δράσεων με εμπλουτισμένες αναπαραστάσεις βίντεο el
heal.type bachelorThesis
heal.classification Όραση υπολογιστών el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2015-07-16
heal.abstract Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της αυτόματης αναγνώρισης ανθρώπινων δράσεων σε ρεαλιστικά βίντεο εστιάζοντας σε μεθόδους αναπαράστασης των βίντεο. Για την εξαγωγή χαρακτηριστικών εκμεταλλευόμαστε την πλούσια πληροφορία κίνησης που μας προσφέρουν τα διαδεδομένα χαρακτηριστικά Πυκνών Τροχιών. Σημαντικό μέρος της εργασίας αφιερώνεται στην ανάλυση των μεθόδων που χρησιμοποιούνται για την αναγνώριση των δράσεων, με ιδιαίτερη έμφαση σε επιτυχημένες σύγχρονες μεθόδους αναπαράστασης βίντεο, όπως οι Bag-Of-Visual-Words και VLAD. Αρχικά, πραγματοποιείται εκτενής πειραματισμός με διάφορες γνωστές μεθόδους εξαγωγής χαρακτηριστικών και υπολογισμού αναπαραστάσεων για την επίλυση του προβλήματος της αναγνώρισης συνεχόμενων δράσεων σε RGB-D βίντεο, τα οποία περιέχουν δράσεις που εκτελούνται από ηλικιωμένα άτομα. Στη συνέχεια, προτείνουμε δύο νέες μεθόδους αναπαράστασης βίντεο. Η πρώτη μέθοδος μοντελοποιεί την αλληλεπίδραση μεταξύ των συστάδων οπτικών χαρακτηριστικών (τροχιών) ποσοτικοποιώντας την κατευθυνόμενη ομοιότητα μεταξύ των συστάδων με το συνδυασμό εργαλείων όπως η Ανάλυση σε Κύριες Συνιστώσες και η απόκλιση Kullback-Leibler. Η δεύτερη μέθοδος αναπαριστά τα βίντεο ως χρονικές ακολουθίες συχνά εμφανιζόμενων οπτικών λέξεων, αποσκοπώντας στην μοντελοποίηση της εγγενούς χρονικής διάταξης των κινήσεων που αποτελούν μια δράση. Επιπρόσθετα, προτείνεται μέθοδος υπολογισμού της απόστασης μεταξύ αυτών των ακολουθιών οπτικών λέξεων με χρήση αλγορίθμου τοπικής στοίχισης συμβολικών ακολουθιών, που μας επιτρέπει την ταξινόμησή τους με χρήση SVMs. Η πειραματική αξιολόγηση των μεθόδων μας σε απαιτητικές βάσεις ανθρώπινων δράσεων επιβεβαιώνει την αποτελεσματικότητά τους, καθώς επιτυγχάνουν επιδόσεις που ξεπερνούν αυτές αρκετών γνωστών μεθόδων και είναι συγκρίσιμες με αυτές των καλύτερων σύγχρονων μεθόδων αναπαράστασης βίντεο της διεθνούς βιβλιογραφίας. el
heal.abstract This thesis deals with the problem of automatic human action recognition in realistic videos, focusing on video representation methods. For feature extraction, we exploit the rich motion information captured in the state-of-the-art “Dense Trajectories” features. A significant part of this work is devoted to the analysis of action recognition methods, with a special focus on successful modern video representations, such as Bag-Of-Visual-Words and VLAD. We experiment with various popular feature extraction methods and video representations in the context of action classification and temporal localization in continuous RGB-D videos, which contain actions performed by elderly people. Furthermore, we propose two novel video representation methods. The first method models the interaction between clusters of visual features, quantifying the directional similarity between clusters, combining tools such as the Principal Component Analysis and the Kullback-Leibler divergence. The other method represents videos as temporal sequences of frequently occurring visual words, aiming at the modelling of the inherent temporal order of motions constituting an action. We also propose a method for the computation of distances between these visual word sequences, using a local sequence alignment algorithm, which enables their classification with Support Vector Machines. The experimental evaluation of our methods in demanding human action datasets confirms their efficacy, since they achieve high action recognition accuracy, outperforming many popular video representations and they are comparable with recently published top-performing video representations. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όραση Υπολογιστών, Επικοινωνία Λόγου και Επεξεργασία Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 165 σ.
heal.fullTextAvailability true


Files in this item

This item appears in the following Collection(s)

Show simple item record