Η εφαρμογή της μάθησης πολλαπλών εργασιών κατά την από κοινού διαχείριση των προβλημάτων της αναγνώρισης των ανθρώπινων δράσεων και χειρονομιών

Σπάθης, Κωνσταντίνος; Spathis, Konstantinos

dc.contributor.author	Σπάθης, Κωνσταντίνος	el
dc.contributor.author	Spathis, Konstantinos	en
dc.date.accessioned	2025-01-22T08:44:24Z
dc.date.available	2025-01-22T08:44:24Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/60899
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.28595
dc.rights	Default License
dc.subject	Βαθιά μάθηση	el
dc.subject	Deep learning	en
dc.subject	Όραση υπολογιστών	el
dc.subject	Αναγνώριση δράσεων	el
dc.subject	Αναγνώριση χειρονομιών	el
dc.subject	Μάθηση πολλαπλών εργασιών	el
dc.subject	Computer vision	en
dc.subject	Action recognition	en
dc.subject	Gesture recognition	en
dc.subject	Multi-task learning	en
dc.title	Η εφαρμογή της μάθησης πολλαπλών εργασιών κατά την από κοινού διαχείριση των προβλημάτων της αναγνώρισης των ανθρώπινων δράσεων και χειρονομιών	el
dc.title	Multi-task learning for action and gesture recognition	en
heal.type	bachelorThesis
heal.classification	Όραση Υπολογιστών	el
heal.classification	Computer Vision	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-07-18
heal.abstract	Με την ανάπτυξη των αρχιτεκτονικών βαθιάς μάθησης έχουν επιτευχθεί αξιοσημείωτες επιδόσεις σε διά- φορα προβλήματα/εργασίες της όρασης υπολογιστών, συμπεριλαμβανομένης της αναγνώρισης δράσεων και χειρονομιών. Στόχος αυτών των προβλημάτων είναι να εξάγουν σημασιολογικά χρήσιμη πληροφορία από οπτικά δεδομένα. Οι μεθοδολογίες, που προτείνονται, για την αναγνώριση δράσεων και χειρονομιών επικεντρώνονται στην εφαρμογή νέων αρχιτεκτονικών βαθιάς μάθησης για την επίτευξη καλύτερων επιδόσεων, ενώ αντιμετωπί- ζουν αυτά τα πρόβλημα ξεχωριστά. ΄Ομως, αυτά τα προβλήματα βρίσκουν εφαρμογή σε διάφορους τομείς όπου απαιτείται η αναγνώριση τόσο των δράσεων όσο και των χειρονομιών, όπως για παράδειγμα στους ρομποτικούς υποβοηθούς, σε συστήματα επιτήρησης ή στην αυτόνομη οδήγηση όπου επιδιώκεται ο εντοπισμός και η ανίχνευση αντικειμένων/ανθρώπων ταυτόχρονα. Επομένως, η αλληλοεπικάλυψη, που έχουν αυτά τα προβλήματα δημιουργεί την ανάγκη για την απο κοινού επίλυσή τους, με τη δημιουργία αλγορίθμων και αρχιτεκτονικών, που τα επιλύουν ταυτόχρονα. Επιπλέον, η ανάπτυξη μοντέλων βαθιάς μάθησης απαιτεί τη συλλογή μεγάλου όγκου δεδομένων, το οποίο είναι συχνά δύσκολο και χρονοβόρο. Για αυτό έχουν προταθεί εναλλακτικές που αξιοποιούν την πληροφορία από πολ- λαπλές εργασίες για τη βελτίωση της απόδοσης των μοντέλων βαθιάς μάθησης. Μία από αυτές είναι η "μάθηση πολλαπλών εργασιών", όπου πολλαπλές εργασίες/προβλήματα μαθαίνονται να επιλύονται από κοινού, μοιράζον- τας πληροφορία μεταξύ τους. Η μάθηση πολλαπλών εργασιών έχει εφαρμοστεί με επιτυχία σε προβλήματα με βίντεο, που απεικονίζουν ανθρώπινες κινήσεις, όπως η αναγνώριση δράσεων και η εκτίμηση πόζας, καθώς και σε προβλήματα με δεδομένα χειρονομιών, τα οποία συνδυάζουν την αναγνώριση και εντοπισμό χειρονομιών. Σε αυτή την εργασία, στοχεύουμε να δείξουμε ότι οι εργασίες αναγνώρισης δράσεων και χειρονομιών μπορούν να αντιμετωπιστούν με τη χρήση μιας εννιαίας αρχιτεκτονικής. Κατασκευάζουμε διαφορετικά μοντέλα μάθησης πολλαπλών εργασιών, όπου οι εργασίες αναγνώρισης δράσεων και χειρονομιών μαθαίνονται από κοινού. Αξι- ολογούμε την απόδοση των προτεινόμενων μοντέλων σε σύγκριση με τα αντίστοιχα μοντέλα μονής εργασίας. Τα αποτελέσματα δείχνουν ότι τα προτεινόμενα μοντέλα επιτυγχάνουν καλύτερη απόδοση σε σύγκριση με τα μοντέλα μονής εργασίας, δείχνοντας τα οφέλη της μάθησης πολλαπλών εργασιών για την ταυτόχρονη επίλυση των προβλημάτων της αναγνώρισης δράσεων και χειρονομιών. Επιπλέον, επεκτείνουμε αυτή τη μέθοδο για να αναπτύξουμε ένα πολυτροπικό μοντέλο μάθησης πολλαπλών εργασιών, όπου διαφορετικού τύπου δεδομένα, συγ- κεκριμένα δεδομένα από έγχρωμες κάμερες και αισθητήρες βάθους, μπορούν να εκπαιδεύονται από κοινού στο ίδιο μοντέλο, για να επιτύχουν καλύτερη απόδοση σε σύγκριση με τα μοντέλα μονής εργασίας και τις αντίστοιχες πολυτροπικές προσεγγίσεις τους.	el
heal.abstract	The recent advances in deep learning have revolutionized the field of computer vision. Deep learning models have achieved state-of-the-art performance in various tasks, including action and gesture recognition. These two human-centric tasks involve the recognition of human actions and gestures in videos, aiming to mathe- matically model the human perception of actions and gestures. The current state-of-the-art models for action and gesture recognition focus on applying novel deep learning architectures to achieve better performance, while handling each task separately. However, these tasks find application in various fields where the recog- nition of both actions and gestures is required, as it arises for example with robotic assistants, surveillance systems, or autonomous driving, where object/human detection and recognition are required simultaneously. Therefore, these problems show great overlap, requiring common algorithms that address both of them at the same time. Recently, alternative approaches of learning methods have been proposed to improve the performance of deep learning models, without requiring the development of novel architectures or the collection of more data. One of these approaches is "multi-task learning", where multiple tasks are learned jointly, sharing information between them. Multi-task learning has been successfully applied to various computer vision tasks. Tasks including actions, such as action recognition and pose estimation have been shown to benefit from multi-task learning. While in the field of gesture recognition, multi-task learning has also been applied to tasks such as hand gesture recognition and segmentation, achiving remarkable results. In this thesis, we aim to show that the tasks of action and gesture recognition can be learned jointly, benefiting from each other. We constuct different multi-task learning models, where the tasks of action and gesture recognition are learned jointly. We evaluate the performance of the proposed models on the respective single- task learning models for action and gesture recognition. The results show that the proposed models achieve better performance compared to the single task models, demonstrating the benefits of multi-task learning in action and gesture recognition. Moreover, we extent this method to develop a multimodal multi-task learning model, where different modalities, specifically rgb and depth data, can be learnt jointly in the same framework, to achieve better performance in comparison to single task models and multimodal approaches.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.advisorName	Maragos, Petros	en
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.committeeMemberName	Κορδώνης, Ιωάννης	el
heal.committeeMemberName	Rontogiannis, Athanasios	en
heal.committeeMemberName	Kordonis, Ioannis	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	161 σ.	el
heal.fullTextAvailability	false