Το αντικείμενο έρευνας της διατριβής αυτής σχετίζεται με τα βήματα που αφορούν στην αναγνώριση και μοντελοποίηση συμπεριφοράς σε περιβάλλοντα αλληλεπίδρασης με μηχανή, όταν δεν υπάρχει συγκεκριμένη γνώση και εξειδικευμένος εξοπλισμός, πέρα από μία απλή διαδικτυακή κάμερα. Η έρευνα επικεντρώθηκε στην πηγή πληροφορίας που σχετίζεται με την ανάλυση και κίνηση του προσώπου. Συνήθως τέτοια συστήματα στηρίζονται σε παραδοχές σχετικά με την τοπολογική θέση του χρήστη, τις παραμέτρους της κάμερας, ή σε χρησιμοποίηση εξειδικευμένου υλικού. Πέρα από την προσπάθεια που έγινε στο πλαίσιο της διατριβής αυτής προς την κατεύθυνση αποφυγής τέτοιων παραδοχών, βασικός άξονας ήταν ένα ολοκληρωμένο σύστημα, τα επιμέρους στοιχεία του οποίου δεν θα βασίζονται σε μια στατική αλληλουχία, αλλά σε εκ βάθους μελέτη της καταλληλότητας και προσαρμοστικότητάς τους κατά τη διάρκεια της αλληλεπίδρασης. Προτείνονται επιμέρους αρχιτεκτονικές, στοχευμένες σε ένα περιβάλλον μη παρεμβατικό, που ενθαρρύνει τον αυθορμητισμό κινήσεων και φυσικότητα στον φωτισμό και το φόντο. Μεγάλη πρόκληση προς αυτήν την κατεύθυνση ήταν η παραπέρα μοντελοποίηση των μετρούμενων μεγεθών, για την εκπαίδευση συστημάτων τέτοιων που να προσεγγίζουν την ανθρώπινη αντίληψη ως προς την ενασχόληση χρήστη σε περιβάλλοντα αλληλεπίδρασης, με βάση την ανάλυση των χαρακτηριστικών και των κινήσεων της κεφαλής του. Τα επιμέρους θεωρητικά συμπεράσματα επιβεβαιώνονται από πειραματικά αποτελέσματα σε "απαιτητικές" βάσεις, η υποκειμενικότητα στην επισημείωση των οποίων, σε αρκετές περιπτώσεις, προκαλούσε σύγχυση ακόμα και στον ανθρώπινο παράγοντα. Ωστόσο, τα αποτελέσματα ενθαρρύνουν την ανάπτυξη μη παρεμβατικών μεθοδολογιών μοντελοποίησης οπτικής επικοινωνίας βασισμένης σε ανάλυση και κίνηση προσώπου, σε πληθώρα εφαρμογών στο γενικότερο πλαίσιο της συναισθηματικής υπολογιστικής.
The research field, covered by this thesis is strongly related to recognition and modelling of hu-man behaviour in Human-Computer-Interaction environments, using face analysis as input mo-dality. Research focuses on those cases where no specific knowledge regarding the set up, or specialized equipment exists, apart from simple hardware, like a common web-camera. Nor-mally, such systems are based on admissions regarding user position, camera parameters or specific hardware. Beyond the effort to avoid such admissions, one of the basic principles of this thesis was research on a series of components, not statically positioned in the architecture, but dynamically emphasized throughout each process. Each component architecture has been worked on independently, aimed at non intrusive environments, encouraging spontaneity in movements, as well as unpretending lighting conditions and background. More in detail, local techniques for facial feature tracking have been employed, as well as holistic techniques with the usage of Convolutional Neural Networks, and prototype inference architectures are pro-posed. Furthermore, this thesis also combines head rotation with eye gaze directionality esti-mation. For estimating eye gaze, head rotation effect is virtually cancelled by employing 3D geometrical models and iris positions are compared to reference topologies. One of the large challenges towards these directions, on a second level, was modelling of ex-tracted facial data, in order to train systems that would try to imitate human perception in terms of engagement in human-computer interaction scenarios. To this aim, fuzzy logic was used. Furthermore, modeling was used as knowledge in order to optimize hybrid methodologies of head pose estimation, by training Bayesian Modality Fusion Networks. Theoretical conclusions are grounded on demanding datasets, with a degree of fuzziness that, many times, confused even human annotators. However, results highlighted the prospect of employing non intrusive mechanisms for inferring engagement based on non verbal communi-cation, using face analysis, in a plethora of applications related to affective computing.