Η συγκεκριμένη διπλωματική έχει σαν αντικείμενο την αντιμετώπιση του προβλήματος της αναγνώρισης χειρονομιών, και των τεχνικών πολυτροπικής σύμμειξης που μπορούν να εφαρμοστούν. Μελετάται η μοντελοποίηση και η αναγνώριση των χειρονομιών με χρήση ισχυρών εργαλείων όπως τα Κρυφά Μαρκοβιανά Μοντέλα, αλλά και άλλων ταξινομητών μηχανικής μάθησης, όπως τα Support Vector Machines και k-Nearest Neighbor. Για την εξαγωγή χαρακτηριστικών χρησιμοποιούμε το κανάλι πληροφορίας της χειρομορφής, από όπου εξάγουμε δημοφιλείς οπτικούς περιγραφητές, όπως τα Histograms of Oriented Gradients (HOG), αλλά και το κανάλι πληροφορίας της θέσης-κίνησης, όπου τα χαρακτηριστικά προκύπτουν από τη θέση (σχετική θέση, απόσταση) και την κίνηση (ταχύτητα, διεύθυνση), του χεριού και του αγκώνα. Τέλος, παρουσιάζουμε δύο επιτυχημένα σχήματα σύμμειξης αυτών των δύο καναλιών οπτικής πληροφορίας με την τροπικότητα του ήχου. Μάλιστα, τα αποτελέσματά μας σε πολυτροπική βάση αναγνώρισης χειρονομιών, ξεπερνούν τις επιδόσεις που επιτεύχθηκαν σε πρόσφατο διαγωνισμό πολυτροπικής αναγνώρισης χειρονομιών.
This thesis focuses on the gesture recognition problem and on multimodal fusion techniques for it. We study gesture modeling and recognition using powerful tools, such as Hidden Markov Models, as well as other machine learning classifiers, like Support Vector Machines and K-Nearest Neighbor. For feature extraction we focus on Handshape information, employing various visual descriptors, like Histograms of Oriented Gradients (HOG), and Movement-Position information, where features are extracted based on the position (relative position, distance) and the movement (velocity, direction) of hands and elbows. Finally, we present two successful fusion schemes, employing both visual cues and audio modality. Our proposed methodology achieves high gesture recognition accuracy in a multimodal gesture dataset, outperforming all recently published approaches on the same challenging gesture recognition task.