Αναγνώριση δράσεων σε οδηγικό περιβάλλον

Κωνσταντίνου, Μιχαέλα Αικατερίνη; Konstantinou, Michaela Aikaterini

dc.contributor.author	Κωνσταντίνου, Μιχαέλα Αικατερίνη	el
dc.contributor.author	Konstantinou, Michaela Aikaterini	en
dc.date.accessioned	2024-01-16T10:40:43Z
dc.date.available	2024-01-16T10:40:43Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58576
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.26272
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Αναγνώριση δράσης	el
dc.subject	Περιβάλλον οχήματος	el
dc.subject	Αυτόνομα οχήματα	el
dc.subject	Δραστηριότητα οδηγού	el
dc.subject	Ανθρώπινη πόζα	el
dc.subject	Multimodal action recognition	en
dc.subject	Temporal Segment Network	en
dc.subject	Temporal Shift Module	en
dc.subject	Autonomous vehicle	en
dc.subject	Driver action recognition	en
dc.title	Αναγνώριση δράσεων σε οδηγικό περιβάλλον	el
heal.type	bachelorThesis
heal.classification	Computer Vision	en
heal.classification	Computer engineering	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-07-12
heal.abstract	Η παρακολούθηση της συμπεριφοράς του οδηγού και η αναγνώριση των ενεργειών του αποτελεί μια κρίσιμη και ζωτικής σημασίας εργασία στις σύγχρονες συνθήκες ημιαυτόνομης οδήγησης, όπου οι δευτερεύουσες δραστηριότητες, άσχετες με την οδήγηση, πρέπει να ελαχιστοποιούνται. Το ημι-αυτόνομο περιβάλλον δίνει τη δυνατότητα στον οδηγό να απασχολείται από μη σχετιζόμενες με την οδήγηση δράσεις οι οποίες όμως αποσπούν την προσοχή του και θέτουν τους επιβαίνοντες και τους υπόλοιπους χρήστες του δρόμου σε κίνδυνο. Το πρόβλημα της αναγνώρισης δραστηριότητας του οδηγού αποτελεί μια υποκατηγορία του ευρέως μελετημένου τομέα της Αναγνώρισης Ανθρώπινων Δράσεων, αλλά παρουσιάζει πρόσθετες προκλήσεις που απορρέουν από το περιβάλλον, την εμφάνιση των συμμετεχόντων και την περιορισμένη διαθεσιμότητα δεδομένων για τη συγκεκριμένη εργασία. Επιπλέον, η ομοιότητα της στάσης του σώματος εντός του οχήματος και οι ήπιες διαφοροποιήσεις των κινήσεων κατά την εκτέλεση διαφορετικών ενεργειών περιπλέκουν περαιτέρω τη διαδικασία ταξινόμησης. Στην παρούσα εργασία, διερευνούμε την αποτελεσματικότητα των Δικτύων Χρονικών Τμημάτων (Temporal Segment Networks - TSNs) για την αναγνώριση δραστηριότητας του οδηγού εντός αυτόνομων οχημάτων. Επιπλέον, προτείνουμε ένα μοντέλο για την ενίσχυση της απόδοσης των αρχικών δικτύων μέσω της ενσωμάτωσης πληροφοριών της ανθρώπινης πόζας ή και των σχετικών με τη δράση αντικειμένων, επιτρέποντας την πολυτροπική συγχώνευση είτε στα πρώιμα είτε στα όψιμα στάδια του μοντέλου, επιτυγχάνοντας πιο σίγουρες προβλέψεις για τα βίντεο εισόδου. Έτσι, η απλότητα των μοντέλων TSN και το μικρό υπολογιστικό τους κόστος ενισχύεται ως προς την απόδοσή τους από την ενσωμάτωση της προηγούμενης γνώσης, με αποτέλεσμα ένα συγχωνευμένο μοντέλο που ξεπερνά σε απόδοση τις πιο απαιτητικές σε πόρους 3D αρχιτεκτονικές. Η προτεινόμενη μέθοδος αξιολογείται στο σύνολο δεδομένων Drive\&Act και επιδεικνύει κορυφαίες επιδόσεις, ξεπερνώντας τις προηγούμενες εργασίες με περιθώριο 8,01\% χρησιμοποιώντας μόνο τρικαναλικά έγχρωμα βίντεο ως είσοδο. Για την επιλογή του καλύτερου μοντέλου, αφού μελετήθηκε αναλυτικά η βιβλιογραφία δοκιμάστηκαν διαφορετικές αρχιτεκτονικές, τεχνικές και μεθοδολογίες αλλά και εκτελέστηκε πληθώρα πειραμάτων. Έτσι βάσει αυτών καταλήξαμε σε συμπεράσματα που αφορούν τις ιδιαιτερότητες της βάσης που μελετάμε αλλά και προτείναμε μελλοντικές επεκτάσεις του προτεινόμενου συστήματος τόσο στην βάση Drive\&Act όσο και σε άλλες βάσεις δεδομένων ώστε να μειωθεί περαιτέρω το υπολογιστικό κόστος τέτοιων εργασιών ενώ ταυτόχρονα να αυξηθεί η επίδοσή τους.	el
heal.abstract	Monitoring driver behavior and recognizing driver actions is a crucial task in modern semi-autonomous driving conditions, where secondary activities, irrelevant to driving, should be minimized. The driver activity recognition problem represents a subclass of the widely studied action recognition task, but poses additional challenges stemming from the environment, the appearance of the participants, and the limited data availability for this specific task. Furthermore, the similarity of body movements and the nuanced changes when performing different actions further complicate the classification process. In this work, we explore the effectiveness of Temporal Segment Networks (TSNs) on the driver activity recognition task. Moreover, we propose a model to enhance the performance of such networks through the integration of information from pose landmarks, allowing for multi-modal fusion either in the early or late stages of the model, providing informed predictions for input videos. Thus, the simplicity of the TSN models is counterbalanced by the incorporation of prior knowledge, resulting in a fused model that outperforms more resource-demanding 3D architectures. The proposed method is evaluated on the Drive\&Act dataset and demonstrates state-of-the-art performance, surpassing previous works by a margin of 8.01\% using only RGB video as input. In order to choose the best model, after studying the literature in detail, different architectures, different techniques and a large number of experiments were tested. Thus, based on these we came to conclusions regarding the specifics of the base we are studying and proposed future extensions to other databases in order to further reduce the computational cost of such tasks while at the same time increasing their performance.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.advisorName	Maragos, Petros	en
heal.advisorName	Ρετσινάς, Γεώργιος	el
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	108 σ.	el
heal.fullTextAvailability	false