dc.contributor.author |
Σπάθης, Κωνσταντίνος
|
el |
dc.contributor.author |
Spathis, Konstantinos
|
en |
dc.date.accessioned |
2025-01-22T08:44:24Z |
|
dc.date.available |
2025-01-22T08:44:24Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/60899 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.28595 |
|
dc.rights |
Default License |
|
dc.subject |
Βαθιά μάθηση |
el |
dc.subject |
Deep learning |
en |
dc.subject |
Όραση υπολογιστών |
el |
dc.subject |
Αναγνώριση δράσεων |
el |
dc.subject |
Αναγνώριση χειρονομιών |
el |
dc.subject |
Μάθηση πολλαπλών εργασιών |
el |
dc.subject |
Computer vision |
en |
dc.subject |
Action recognition |
en |
dc.subject |
Gesture recognition |
en |
dc.subject |
Multi-task learning |
en |
dc.title |
Η εφαρμογή της μάθησης πολλαπλών εργασιών κατά την από κοινού διαχείριση των προβλημάτων της αναγνώρισης των ανθρώπινων δράσεων και χειρονομιών |
el |
dc.title |
Multi-task learning for action and gesture recognition |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Όραση Υπολογιστών |
el |
heal.classification |
Computer Vision |
en |
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2024-07-18 |
|
heal.abstract |
Με την ανάπτυξη των αρχιτεκτονικών βαθιάς μάθησης έχουν επιτευχθεί αξιοσημείωτες επιδόσεις σε διά-
φορα προβλήματα/εργασίες της όρασης υπολογιστών, συμπεριλαμβανομένης της αναγνώρισης δράσεων και
χειρονομιών. Στόχος αυτών των προβλημάτων είναι να εξάγουν σημασιολογικά χρήσιμη πληροφορία από οπτικά
δεδομένα. Οι μεθοδολογίες, που προτείνονται, για την αναγνώριση δράσεων και χειρονομιών επικεντρώνονται
στην εφαρμογή νέων αρχιτεκτονικών βαθιάς μάθησης για την επίτευξη καλύτερων επιδόσεων, ενώ αντιμετωπί-
ζουν αυτά τα πρόβλημα ξεχωριστά. ΄Ομως, αυτά τα προβλήματα βρίσκουν εφαρμογή σε διάφορους τομείς όπου
απαιτείται η αναγνώριση τόσο των δράσεων όσο και των χειρονομιών, όπως για παράδειγμα στους ρομποτικούς
υποβοηθούς, σε συστήματα επιτήρησης ή στην αυτόνομη οδήγηση όπου επιδιώκεται ο εντοπισμός και η ανίχνευση
αντικειμένων/ανθρώπων ταυτόχρονα. Επομένως, η αλληλοεπικάλυψη, που έχουν αυτά τα προβλήματα δημιουργεί
την ανάγκη για την απο κοινού επίλυσή τους, με τη δημιουργία αλγορίθμων και αρχιτεκτονικών, που τα επιλύουν
ταυτόχρονα.
Επιπλέον, η ανάπτυξη μοντέλων βαθιάς μάθησης απαιτεί τη συλλογή μεγάλου όγκου δεδομένων, το οποίο είναι
συχνά δύσκολο και χρονοβόρο. Για αυτό έχουν προταθεί εναλλακτικές που αξιοποιούν την πληροφορία από πολ-
λαπλές εργασίες για τη βελτίωση της απόδοσης των μοντέλων βαθιάς μάθησης. Μία από αυτές είναι η "μάθηση
πολλαπλών εργασιών", όπου πολλαπλές εργασίες/προβλήματα μαθαίνονται να επιλύονται από κοινού, μοιράζον-
τας πληροφορία μεταξύ τους. Η μάθηση πολλαπλών εργασιών έχει εφαρμοστεί με επιτυχία σε προβλήματα με
βίντεο, που απεικονίζουν ανθρώπινες κινήσεις, όπως η αναγνώριση δράσεων και η εκτίμηση πόζας, καθώς και σε
προβλήματα με δεδομένα χειρονομιών, τα οποία συνδυάζουν την αναγνώριση και εντοπισμό χειρονομιών.
Σε αυτή την εργασία, στοχεύουμε να δείξουμε ότι οι εργασίες αναγνώρισης δράσεων και χειρονομιών μπορούν
να αντιμετωπιστούν με τη χρήση μιας εννιαίας αρχιτεκτονικής. Κατασκευάζουμε διαφορετικά μοντέλα μάθησης
πολλαπλών εργασιών, όπου οι εργασίες αναγνώρισης δράσεων και χειρονομιών μαθαίνονται από κοινού. Αξι-
ολογούμε την απόδοση των προτεινόμενων μοντέλων σε σύγκριση με τα αντίστοιχα μοντέλα μονής εργασίας.
Τα αποτελέσματα δείχνουν ότι τα προτεινόμενα μοντέλα επιτυγχάνουν καλύτερη απόδοση σε σύγκριση με τα
μοντέλα μονής εργασίας, δείχνοντας τα οφέλη της μάθησης πολλαπλών εργασιών για την ταυτόχρονη επίλυση
των προβλημάτων της αναγνώρισης δράσεων και χειρονομιών. Επιπλέον, επεκτείνουμε αυτή τη μέθοδο για να
αναπτύξουμε ένα πολυτροπικό μοντέλο μάθησης πολλαπλών εργασιών, όπου διαφορετικού τύπου δεδομένα, συγ-
κεκριμένα δεδομένα από έγχρωμες κάμερες και αισθητήρες βάθους, μπορούν να εκπαιδεύονται από κοινού στο
ίδιο μοντέλο, για να επιτύχουν καλύτερη απόδοση σε σύγκριση με τα μοντέλα μονής εργασίας και τις αντίστοιχες
πολυτροπικές προσεγγίσεις τους. |
el |
heal.abstract |
The recent advances in deep learning have revolutionized the field of computer vision. Deep learning models
have achieved state-of-the-art performance in various tasks, including action and gesture recognition. These
two human-centric tasks involve the recognition of human actions and gestures in videos, aiming to mathe-
matically model the human perception of actions and gestures. The current state-of-the-art models for action
and gesture recognition focus on applying novel deep learning architectures to achieve better performance,
while handling each task separately. However, these tasks find application in various fields where the recog-
nition of both actions and gestures is required, as it arises for example with robotic assistants, surveillance
systems, or autonomous driving, where object/human detection and recognition are required simultaneously.
Therefore, these problems show great overlap, requiring common algorithms that address both of them at
the same time.
Recently, alternative approaches of learning methods have been proposed to improve the performance of deep
learning models, without requiring the development of novel architectures or the collection of more data. One
of these approaches is "multi-task learning", where multiple tasks are learned jointly, sharing information
between them. Multi-task learning has been successfully applied to various computer vision tasks. Tasks
including actions, such as action recognition and pose estimation have been shown to benefit from multi-task
learning. While in the field of gesture recognition, multi-task learning has also been applied to tasks such as
hand gesture recognition and segmentation, achiving remarkable results.
In this thesis, we aim to show that the tasks of action and gesture recognition can be learned jointly, benefiting
from each other. We constuct different multi-task learning models, where the tasks of action and gesture
recognition are learned jointly. We evaluate the performance of the proposed models on the respective single-
task learning models for action and gesture recognition. The results show that the proposed models achieve
better performance compared to the single task models, demonstrating the benefits of multi-task learning
in action and gesture recognition. Moreover, we extent this method to develop a multimodal multi-task
learning model, where different modalities, specifically rgb and depth data, can be learnt jointly in the same
framework, to achieve better performance in comparison to single task models and multimodal approaches. |
en |
heal.advisorName |
Μαραγκός, Πέτρος |
el |
heal.advisorName |
Maragos, Petros |
en |
heal.committeeMemberName |
Ροντογιάννης, Αθανάσιος |
el |
heal.committeeMemberName |
Κορδώνης, Ιωάννης |
el |
heal.committeeMemberName |
Rontogiannis, Athanasios |
en |
heal.committeeMemberName |
Kordonis, Ioannis |
en |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
161 σ. |
el |
heal.fullTextAvailability |
false |
|