Αντικείμενο της διατριβής είναι η αναγνώριση ανθρώπινης συμπεριφοράς από ακολουθίες βίντεο με χρήση καινοτόμων τεχνικών όρασης υπολογιστών και μηχανικής μάθησης, με έμφαση σε δραστηριότητες οργανωμένες σε ροές εργασίας. Το πρόβλημα παρουσιάζει μια σειρά από σοβαρές δυσκολίες, όπως επικαλύψεις, συχνές αλλαγές φωτισμού και έκτοπα, ενώ τα οπτικώς σύνθετα περιβάλλοντα που εξετάζονται δημιουργούν πρόσθετες προκλήσεις. Οι τυπικές μέθοδοι που βασίζονται σε ανίχνευση ή ιχνηλάτηση αντικειμένων τείνουν να αποτυγχάνουν εξαιτίας της μεγάλης πολυπλοκότητας των αναπαριστώμενων σκηνών. Για να παρακαμφθούν αυτά τα στάδια, προτείνεται η εξαγωγή ολιστικών χαρακτηριστικών για την αναπαράσταση των εικόνων. Επίσης, εξετάζεται η δυνατότητα αξιοποίησης πληροφορίας από πολλαπλά ρεύματα παρατηρήσεων (κάμερες) μέσω τεχνικών σύμμιξης (fusion) των χρησιμοποιούμενων hidden Markov models (HMM) για την αντιμετώπιση των επικαλύψεων, ενώ ερευνάται η αποτελεσματικότητα της χρήσης της κατανομής Student-t αντί της Gaussian ως κατανομής παρατήρησης για μεγαλύτερη ευρωστία σε έκτοπα. Για το ερευνητικά και πρακτικά σημαντικό πρόβλημα της online αναγνώρισης συμπεριφοράς, προτείνεται μια σειρά από νέες τεχνικές με διαφορετική στόχευση. Η πρώτη στηρίζεται σε κατάτμηση των ακολουθιών, ταξινόμηση των προκυπτουσών υποακολουθιών με χρήση HMM και ενσωμάτωση a priori γνώσης μέσω γενετικού αλγορίθμου (GA-HMM). Η δεύτερη βασίζεται σε ένα συνδυασμό μπεϋζιανού φίλτρου και HMM και δεν απαιτεί ξεχωριστό αλγόριθμο κατάτμησης, ενώ η τρίτη αντιμετωπίζει το πρόβλημα ταυτόχρονων ή χρονικά επικαλυπτόμενων δραστηριοτήτων μέσω ανίχνευσης κίνησης σε περιοχές ενδιαφέροντος. Μια άλλη συνεισφορά της διατριβής έγκειται στην εισαγωγή τής έννοιας της Αξιολογικής Διόρθωσης, η οποία, αξιοποιώντας την ανατροφοδότηση που δίνεται από έναν εξειδικευμένο χρήστη ως προς την ορθότητα των προβλέψεων των αλγορίθμων αναγνώρισης, ακολουθεί μια προσέγγιση βασισμένη σε feedforward αλλά και προσαρμοστικά νευρωνικά δίκτυα με σκοπό τη μείωση του συνολικού σφάλματος ταξινόμησης και τη βελτίωση των μελλοντικών αποτελεσμάτων. Τέλος, εξετάζονται οι δυνατότητες αξιοποίησης των πλεονεκτημάτων του υπολογιστικού νέφους και προτείνεται μια αρχιτεκτονική βασισμένη σε πλατφόρμα νέφους με σκοπό την αποδοτικότερη και αποτελεσματικότερη εφαρμογή των προτεινόμενων μεθόδων σε πραγματικές εγκαταστάσεις υψηλής κλίμακας με απαιτήσεις online λειτουργίας σε πραγματικό χρόνο.
This thesis aims at proposing novel computer vision and machine learning techniques for human behavior recognition from video, emphasizing on activities forming workflows. The problem involves significant challenges, such as occlusions, frequent illumination changes and outliers, whereas the visually complex environment of our use case induces additional difficulties. Typical object based methods that rely on detection or tracking tend to fail because of the high complexity of the observed scenes. In order to bypass these error-prone stages, we propose the extraction of holistic features directly on the image level for scene representation. Furthermore, we examine the applicability of fused schemes of the employed classifiers (hidden Markov models) in an endeavor to exploit redundancies from multiple camera streams so as to solve occlusions, whereas we also scrutinize the effectiveness of the multivariate Student-t distribution as observation likelihood (instead of the Gaussian) for higher tolerance to outliers. In the sequel, a series of new techniques for online behavior recognition are proposed. The first one is based on sequence segmentation, classification of the segments through HMM classifiers and incorporation of a priori knowledge via a genetic algorithm (GA-HMM). The second method is based on a combination of bayesian filtering and HMM and does not require a separate segmentation algorithm, while the third one focuses on concurrent activity recognition following a top-down event-driven Region of Interest based approach. Another contribution of this thesis lies in the introduction of the concept of Evaluative Rectification, which exploits an expert user’s feedback regarding the correctness of the classification results of the employed recognition methods and follows a feedforward and adaptive neural network based approach in order to improve future results in the direction of decreasing the overall classification error. Finally, we examine the possibility of exploiting the benefits involved in cloud computing and propose a cloud platform endowed with modern workflow management mechanisms for an effective and efficient application of the proposed methods in real-world large-scale installations, where online and real-time requirements are posed.