Σκοπός της παρούσας διπλωματικής εργασίας είναι η αντιμετώπιση του προβλήματος της αναγνώρισης και ταξινόμησης ανθρώπινων δράσεων σε video. Το πρόβλημα αυτό θεωρείται θεμελιώδες στην ανάλυση και ερμηνεία video και για αυτό ερευνάται και εφαρμόζεται ευρέως σε διάφορους τομείς όπως η ανάκτηση δεδομένων από video, η οπτική επιτήρηση και παρακολούθηση, η ρομποτική και η αλληλεπίδραση ανθρώπου-υπολογιστή. Η προσέγγιση που χρησιμοποιήσαμε εκμεταλλεύεται μεθόδους αναπαράστασης των video μέσω τοπικών χαρακτηριστικών. Σκοπεύουμε στην εύρεση εύρωστων χωροχρονικών σημείων ενδιαφέροντος που να αποτελούν πηγή μιας συμπαγούς αναπαράστασης των video, στα πλαίσια της οποίας αναπτύσσουμε και παρουσιάζουμε δύο νέους αλγόριθμους ανίχνευσης. Για την εξαγωγή χαρακτηριστικών χρησιμοποιούμε δημοφιλείς περιγραφητές όπως οι Histograms of Oriented Gradients/Histograms of Optical Flow (HOG/HOF) και οι Histograms of Oriented 3D Gradients (HOG3D). Γίνεται προσπάθεια μοντελοποίησης και αναγνώρισης των ανθρώπινων δράσεων με χρήση ισχυρών εργαλείων όπως οι Μηχανές Διανυσμάτων Υποστήριξης, τα κρυφά Μαρκοβιανά Μοντέλα και οι ταξινομητές k-Nearest Neighbour, σε συνδυασμό με γνωστές τεχνικές όπως Bag-of-Features και Γραμμική Πρόβλεψη. Οι αλγόριθμοί μας αξιολογούνται πειραματικά σε δύο πολύ γνωστές βάσεις δεδομένων ανθρώπινων δράσεων, όπου και ξεπερνούν τις επιδόσεις που επιτεύχθηκαν από δημοφιλείς αλγόριθμους της βιβλιογραφίας. Ο πειραματισμός μας επεκτάθηκε σε μια νέα πολυαισθητηριακή βάση δεδομένων, όπου και εφαρμόσαμε νέες τεχνικές αναγνώρισης συνεχόμενων δράσεων.
The aim of this thesis is to deal with the task of human action classification and recognition in videos. This task is considered fundamental in video analysis and video understanding and because of that it is widely researched and applied in several domains such as video retrieval, video surveillance, robotics and human-computer interaction. Our approach takes advantage of video representation with local features. Our aim is to find robust spatio-temporal interest points that lead to compact representation of videos. We develop and propose two new algorithms that search for local spatiotemporal interest points. For feature extraction we use popular descriptors as Histograms of Oriented Gradients/Histograms of Optical Flow (HOG/HOF) and Histograms of Oriented 3D Gradients (HOG3D). We try to model and recognize human actions using powerful machine learning tools such as Support Vector Machines, Hidden Markov Models and k-Nearest Neighbour classifiers combined with known techniques such as Bag-of-Features and Linear Predictive Coding. Our algorithms are experimentally evaluated in two popular action databases, in which they ourperform state-of-the-art detectors. The experimental evaluation was extended to a new multisensor database, where we applied new methods for continuous action recognition.