HEAL DSpace

Η εφαρμογή της μάθησης πολλαπλών εργασιών κατά την από κοινού διαχείριση των προβλημάτων της αναγνώρισης των ανθρώπινων δράσεων και χειρονομιών

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σπάθης, Κωνσταντίνος el
dc.contributor.author Spathis, Konstantinos en
dc.date.accessioned 2025-01-22T08:44:24Z
dc.date.available 2025-01-22T08:44:24Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60899
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28595
dc.rights Default License
dc.subject Βαθιά μάθηση el
dc.subject Deep learning en
dc.subject Όραση υπολογιστών el
dc.subject Αναγνώριση δράσεων el
dc.subject Αναγνώριση χειρονομιών el
dc.subject Μάθηση πολλαπλών εργασιών el
dc.subject Computer vision en
dc.subject Action recognition en
dc.subject Gesture recognition en
dc.subject Multi-task learning en
dc.title Η εφαρμογή της μάθησης πολλαπλών εργασιών κατά την από κοινού διαχείριση των προβλημάτων της αναγνώρισης των ανθρώπινων δράσεων και χειρονομιών el
dc.title Multi-task learning for action and gesture recognition en
heal.type bachelorThesis
heal.classification Όραση Υπολογιστών el
heal.classification Computer Vision en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-18
heal.abstract Με την ανάπτυξη των αρχιτεκτονικών βαθιάς μάθησης έχουν επιτευχθεί αξιοσημείωτες επιδόσεις σε διά- φορα προβλήματα/εργασίες της όρασης υπολογιστών, συμπεριλαμβανομένης της αναγνώρισης δράσεων και χειρονομιών. Στόχος αυτών των προβλημάτων είναι να εξάγουν σημασιολογικά χρήσιμη πληροφορία από οπτικά δεδομένα. Οι μεθοδολογίες, που προτείνονται, για την αναγνώριση δράσεων και χειρονομιών επικεντρώνονται στην εφαρμογή νέων αρχιτεκτονικών βαθιάς μάθησης για την επίτευξη καλύτερων επιδόσεων, ενώ αντιμετωπί- ζουν αυτά τα πρόβλημα ξεχωριστά. ΄Ομως, αυτά τα προβλήματα βρίσκουν εφαρμογή σε διάφορους τομείς όπου απαιτείται η αναγνώριση τόσο των δράσεων όσο και των χειρονομιών, όπως για παράδειγμα στους ρομποτικούς υποβοηθούς, σε συστήματα επιτήρησης ή στην αυτόνομη οδήγηση όπου επιδιώκεται ο εντοπισμός και η ανίχνευση αντικειμένων/ανθρώπων ταυτόχρονα. Επομένως, η αλληλοεπικάλυψη, που έχουν αυτά τα προβλήματα δημιουργεί την ανάγκη για την απο κοινού επίλυσή τους, με τη δημιουργία αλγορίθμων και αρχιτεκτονικών, που τα επιλύουν ταυτόχρονα. Επιπλέον, η ανάπτυξη μοντέλων βαθιάς μάθησης απαιτεί τη συλλογή μεγάλου όγκου δεδομένων, το οποίο είναι συχνά δύσκολο και χρονοβόρο. Για αυτό έχουν προταθεί εναλλακτικές που αξιοποιούν την πληροφορία από πολ- λαπλές εργασίες για τη βελτίωση της απόδοσης των μοντέλων βαθιάς μάθησης. Μία από αυτές είναι η "μάθηση πολλαπλών εργασιών", όπου πολλαπλές εργασίες/προβλήματα μαθαίνονται να επιλύονται από κοινού, μοιράζον- τας πληροφορία μεταξύ τους. Η μάθηση πολλαπλών εργασιών έχει εφαρμοστεί με επιτυχία σε προβλήματα με βίντεο, που απεικονίζουν ανθρώπινες κινήσεις, όπως η αναγνώριση δράσεων και η εκτίμηση πόζας, καθώς και σε προβλήματα με δεδομένα χειρονομιών, τα οποία συνδυάζουν την αναγνώριση και εντοπισμό χειρονομιών. Σε αυτή την εργασία, στοχεύουμε να δείξουμε ότι οι εργασίες αναγνώρισης δράσεων και χειρονομιών μπορούν να αντιμετωπιστούν με τη χρήση μιας εννιαίας αρχιτεκτονικής. Κατασκευάζουμε διαφορετικά μοντέλα μάθησης πολλαπλών εργασιών, όπου οι εργασίες αναγνώρισης δράσεων και χειρονομιών μαθαίνονται από κοινού. Αξι- ολογούμε την απόδοση των προτεινόμενων μοντέλων σε σύγκριση με τα αντίστοιχα μοντέλα μονής εργασίας. Τα αποτελέσματα δείχνουν ότι τα προτεινόμενα μοντέλα επιτυγχάνουν καλύτερη απόδοση σε σύγκριση με τα μοντέλα μονής εργασίας, δείχνοντας τα οφέλη της μάθησης πολλαπλών εργασιών για την ταυτόχρονη επίλυση των προβλημάτων της αναγνώρισης δράσεων και χειρονομιών. Επιπλέον, επεκτείνουμε αυτή τη μέθοδο για να αναπτύξουμε ένα πολυτροπικό μοντέλο μάθησης πολλαπλών εργασιών, όπου διαφορετικού τύπου δεδομένα, συγ- κεκριμένα δεδομένα από έγχρωμες κάμερες και αισθητήρες βάθους, μπορούν να εκπαιδεύονται από κοινού στο ίδιο μοντέλο, για να επιτύχουν καλύτερη απόδοση σε σύγκριση με τα μοντέλα μονής εργασίας και τις αντίστοιχες πολυτροπικές προσεγγίσεις τους. el
heal.abstract The recent advances in deep learning have revolutionized the field of computer vision. Deep learning models have achieved state-of-the-art performance in various tasks, including action and gesture recognition. These two human-centric tasks involve the recognition of human actions and gestures in videos, aiming to mathe- matically model the human perception of actions and gestures. The current state-of-the-art models for action and gesture recognition focus on applying novel deep learning architectures to achieve better performance, while handling each task separately. However, these tasks find application in various fields where the recog- nition of both actions and gestures is required, as it arises for example with robotic assistants, surveillance systems, or autonomous driving, where object/human detection and recognition are required simultaneously. Therefore, these problems show great overlap, requiring common algorithms that address both of them at the same time. Recently, alternative approaches of learning methods have been proposed to improve the performance of deep learning models, without requiring the development of novel architectures or the collection of more data. One of these approaches is "multi-task learning", where multiple tasks are learned jointly, sharing information between them. Multi-task learning has been successfully applied to various computer vision tasks. Tasks including actions, such as action recognition and pose estimation have been shown to benefit from multi-task learning. While in the field of gesture recognition, multi-task learning has also been applied to tasks such as hand gesture recognition and segmentation, achiving remarkable results. In this thesis, we aim to show that the tasks of action and gesture recognition can be learned jointly, benefiting from each other. We constuct different multi-task learning models, where the tasks of action and gesture recognition are learned jointly. We evaluate the performance of the proposed models on the respective single- task learning models for action and gesture recognition. The results show that the proposed models achieve better performance compared to the single task models, demonstrating the benefits of multi-task learning in action and gesture recognition. Moreover, we extent this method to develop a multimodal multi-task learning model, where different modalities, specifically rgb and depth data, can be learnt jointly in the same framework, to achieve better performance in comparison to single task models and multimodal approaches. en
heal.advisorName Μαραγκός, Πέτρος el
heal.advisorName Maragos, Petros en
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.committeeMemberName Κορδώνης, Ιωάννης el
heal.committeeMemberName Rontogiannis, Athanasios en
heal.committeeMemberName Kordonis, Ioannis en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 161 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής