dc.contributor.author | Κωνσταντίνου, Μιχαέλα Αικατερίνη | el |
dc.contributor.author | Konstantinou, Michaela Aikaterini | en |
dc.date.accessioned | 2024-01-16T10:40:43Z | |
dc.date.available | 2024-01-16T10:40:43Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/58576 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.26272 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Αναγνώριση δράσης | el |
dc.subject | Περιβάλλον οχήματος | el |
dc.subject | Αυτόνομα οχήματα | el |
dc.subject | Δραστηριότητα οδηγού | el |
dc.subject | Ανθρώπινη πόζα | el |
dc.subject | Multimodal action recognition | en |
dc.subject | Temporal Segment Network | en |
dc.subject | Temporal Shift Module | en |
dc.subject | Autonomous vehicle | en |
dc.subject | Driver action recognition | en |
dc.title | Αναγνώριση δράσεων σε οδηγικό περιβάλλον | el |
heal.type | bachelorThesis | |
heal.classification | Computer Vision | en |
heal.classification | Computer engineering | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-07-12 | |
heal.abstract | Η παρακολούθηση της συμπεριφοράς του οδηγού και η αναγνώριση των ενεργειών του αποτελεί μια κρίσιμη και ζωτικής σημασίας εργασία στις σύγχρονες συνθήκες ημιαυτόνομης οδήγησης, όπου οι δευτερεύουσες δραστηριότητες, άσχετες με την οδήγηση, πρέπει να ελαχιστοποιούνται. Το ημι-αυτόνομο περιβάλλον δίνει τη δυνατότητα στον οδηγό να απασχολείται από μη σχετιζόμενες με την οδήγηση δράσεις οι οποίες όμως αποσπούν την προσοχή του και θέτουν τους επιβαίνοντες και τους υπόλοιπους χρήστες του δρόμου σε κίνδυνο. Το πρόβλημα της αναγνώρισης δραστηριότητας του οδηγού αποτελεί μια υποκατηγορία του ευρέως μελετημένου τομέα της Αναγνώρισης Ανθρώπινων Δράσεων, αλλά παρουσιάζει πρόσθετες προκλήσεις που απορρέουν από το περιβάλλον, την εμφάνιση των συμμετεχόντων και την περιορισμένη διαθεσιμότητα δεδομένων για τη συγκεκριμένη εργασία. Επιπλέον, η ομοιότητα της στάσης του σώματος εντός του οχήματος και οι ήπιες διαφοροποιήσεις των κινήσεων κατά την εκτέλεση διαφορετικών ενεργειών περιπλέκουν περαιτέρω τη διαδικασία ταξινόμησης. Στην παρούσα εργασία, διερευνούμε την αποτελεσματικότητα των Δικτύων Χρονικών Τμημάτων (Temporal Segment Networks - TSNs) για την αναγνώριση δραστηριότητας του οδηγού εντός αυτόνομων οχημάτων. Επιπλέον, προτείνουμε ένα μοντέλο για την ενίσχυση της απόδοσης των αρχικών δικτύων μέσω της ενσωμάτωσης πληροφοριών της ανθρώπινης πόζας ή και των σχετικών με τη δράση αντικειμένων, επιτρέποντας την πολυτροπική συγχώνευση είτε στα πρώιμα είτε στα όψιμα στάδια του μοντέλου, επιτυγχάνοντας πιο σίγουρες προβλέψεις για τα βίντεο εισόδου. Έτσι, η απλότητα των μοντέλων TSN και το μικρό υπολογιστικό τους κόστος ενισχύεται ως προς την απόδοσή τους από την ενσωμάτωση της προηγούμενης γνώσης, με αποτέλεσμα ένα συγχωνευμένο μοντέλο που ξεπερνά σε απόδοση τις πιο απαιτητικές σε πόρους 3D αρχιτεκτονικές. Η προτεινόμενη μέθοδος αξιολογείται στο σύνολο δεδομένων Drive\&Act και επιδεικνύει κορυφαίες επιδόσεις, ξεπερνώντας τις προηγούμενες εργασίες με περιθώριο 8,01\% χρησιμοποιώντας μόνο τρικαναλικά έγχρωμα βίντεο ως είσοδο. Για την επιλογή του καλύτερου μοντέλου, αφού μελετήθηκε αναλυτικά η βιβλιογραφία δοκιμάστηκαν διαφορετικές αρχιτεκτονικές, τεχνικές και μεθοδολογίες αλλά και εκτελέστηκε πληθώρα πειραμάτων. Έτσι βάσει αυτών καταλήξαμε σε συμπεράσματα που αφορούν τις ιδιαιτερότητες της βάσης που μελετάμε αλλά και προτείναμε μελλοντικές επεκτάσεις του προτεινόμενου συστήματος τόσο στην βάση Drive\&Act όσο και σε άλλες βάσεις δεδομένων ώστε να μειωθεί περαιτέρω το υπολογιστικό κόστος τέτοιων εργασιών ενώ ταυτόχρονα να αυξηθεί η επίδοσή τους. | el |
heal.abstract | Monitoring driver behavior and recognizing driver actions is a crucial task in modern semi-autonomous driving conditions, where secondary activities, irrelevant to driving, should be minimized. The driver activity recognition problem represents a subclass of the widely studied action recognition task, but poses additional challenges stemming from the environment, the appearance of the participants, and the limited data availability for this specific task. Furthermore, the similarity of body movements and the nuanced changes when performing different actions further complicate the classification process. In this work, we explore the effectiveness of Temporal Segment Networks (TSNs) on the driver activity recognition task. Moreover, we propose a model to enhance the performance of such networks through the integration of information from pose landmarks, allowing for multi-modal fusion either in the early or late stages of the model, providing informed predictions for input videos. Thus, the simplicity of the TSN models is counterbalanced by the incorporation of prior knowledge, resulting in a fused model that outperforms more resource-demanding 3D architectures. The proposed method is evaluated on the Drive\&Act dataset and demonstrates state-of-the-art performance, surpassing previous works by a margin of 8.01\% using only RGB video as input. In order to choose the best model, after studying the literature in detail, different architectures, different techniques and a large number of experiments were tested. Thus, based on these we came to conclusions regarding the specifics of the base we are studying and proposed future extensions to other databases in order to further reduce the computational cost of such tasks while at the same time increasing their performance. | en |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.advisorName | Maragos, Petros | en |
heal.advisorName | Ρετσινάς, Γεώργιος | el |
heal.committeeMemberName | Ροντογιάννης, Αθανάσιος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 108 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: