HEAL DSpace

Αναγνώριση δράσεων σε οδηγικό περιβάλλον

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κωνσταντίνου, Μιχαέλα Αικατερίνη el
dc.contributor.author Konstantinou, Michaela Aikaterini en
dc.date.accessioned 2024-01-16T10:40:43Z
dc.date.available 2024-01-16T10:40:43Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58576
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26272
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αναγνώριση δράσης el
dc.subject Περιβάλλον οχήματος el
dc.subject Αυτόνομα οχήματα el
dc.subject Δραστηριότητα οδηγού el
dc.subject Ανθρώπινη πόζα el
dc.subject Multimodal action recognition en
dc.subject Temporal Segment Network en
dc.subject Temporal Shift Module en
dc.subject Autonomous vehicle en
dc.subject Driver action recognition en
dc.title Αναγνώριση δράσεων σε οδηγικό περιβάλλον el
heal.type bachelorThesis
heal.classification Computer Vision en
heal.classification Computer engineering en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-07-12
heal.abstract Η παρακολούθηση της συμπεριφοράς του οδηγού και η αναγνώριση των ενεργειών του αποτελεί μια κρίσιμη και ζωτικής σημασίας εργασία στις σύγχρονες συνθήκες ημιαυτόνομης οδήγησης, όπου οι δευτερεύουσες δραστηριότητες, άσχετες με την οδήγηση, πρέπει να ελαχιστοποιούνται. Το ημι-αυτόνομο περιβάλλον δίνει τη δυνατότητα στον οδηγό να απασχολείται από μη σχετιζόμενες με την οδήγηση δράσεις οι οποίες όμως αποσπούν την προσοχή του και θέτουν τους επιβαίνοντες και τους υπόλοιπους χρήστες του δρόμου σε κίνδυνο. Το πρόβλημα της αναγνώρισης δραστηριότητας του οδηγού αποτελεί μια υποκατηγορία του ευρέως μελετημένου τομέα της Αναγνώρισης Ανθρώπινων Δράσεων, αλλά παρουσιάζει πρόσθετες προκλήσεις που απορρέουν από το περιβάλλον, την εμφάνιση των συμμετεχόντων και την περιορισμένη διαθεσιμότητα δεδομένων για τη συγκεκριμένη εργασία. Επιπλέον, η ομοιότητα της στάσης του σώματος εντός του οχήματος και οι ήπιες διαφοροποιήσεις των κινήσεων κατά την εκτέλεση διαφορετικών ενεργειών περιπλέκουν περαιτέρω τη διαδικασία ταξινόμησης. Στην παρούσα εργασία, διερευνούμε την αποτελεσματικότητα των Δικτύων Χρονικών Τμημάτων (Temporal Segment Networks - TSNs) για την αναγνώριση δραστηριότητας του οδηγού εντός αυτόνομων οχημάτων. Επιπλέον, προτείνουμε ένα μοντέλο για την ενίσχυση της απόδοσης των αρχικών δικτύων μέσω της ενσωμάτωσης πληροφοριών της ανθρώπινης πόζας ή και των σχετικών με τη δράση αντικειμένων, επιτρέποντας την πολυτροπική συγχώνευση είτε στα πρώιμα είτε στα όψιμα στάδια του μοντέλου, επιτυγχάνοντας πιο σίγουρες προβλέψεις για τα βίντεο εισόδου. Έτσι, η απλότητα των μοντέλων TSN και το μικρό υπολογιστικό τους κόστος ενισχύεται ως προς την απόδοσή τους από την ενσωμάτωση της προηγούμενης γνώσης, με αποτέλεσμα ένα συγχωνευμένο μοντέλο που ξεπερνά σε απόδοση τις πιο απαιτητικές σε πόρους 3D αρχιτεκτονικές. Η προτεινόμενη μέθοδος αξιολογείται στο σύνολο δεδομένων Drive\&Act και επιδεικνύει κορυφαίες επιδόσεις, ξεπερνώντας τις προηγούμενες εργασίες με περιθώριο 8,01\% χρησιμοποιώντας μόνο τρικαναλικά έγχρωμα βίντεο ως είσοδο. Για την επιλογή του καλύτερου μοντέλου, αφού μελετήθηκε αναλυτικά η βιβλιογραφία δοκιμάστηκαν διαφορετικές αρχιτεκτονικές, τεχνικές και μεθοδολογίες αλλά και εκτελέστηκε πληθώρα πειραμάτων. Έτσι βάσει αυτών καταλήξαμε σε συμπεράσματα που αφορούν τις ιδιαιτερότητες της βάσης που μελετάμε αλλά και προτείναμε μελλοντικές επεκτάσεις του προτεινόμενου συστήματος τόσο στην βάση Drive\&Act όσο και σε άλλες βάσεις δεδομένων ώστε να μειωθεί περαιτέρω το υπολογιστικό κόστος τέτοιων εργασιών ενώ ταυτόχρονα να αυξηθεί η επίδοσή τους. el
heal.abstract Monitoring driver behavior and recognizing driver actions is a crucial task in modern semi-autonomous driving conditions, where secondary activities, irrelevant to driving, should be minimized. The driver activity recognition problem represents a subclass of the widely studied action recognition task, but poses additional challenges stemming from the environment, the appearance of the participants, and the limited data availability for this specific task. Furthermore, the similarity of body movements and the nuanced changes when performing different actions further complicate the classification process. In this work, we explore the effectiveness of Temporal Segment Networks (TSNs) on the driver activity recognition task. Moreover, we propose a model to enhance the performance of such networks through the integration of information from pose landmarks, allowing for multi-modal fusion either in the early or late stages of the model, providing informed predictions for input videos. Thus, the simplicity of the TSN models is counterbalanced by the incorporation of prior knowledge, resulting in a fused model that outperforms more resource-demanding 3D architectures. The proposed method is evaluated on the Drive\&Act dataset and demonstrates state-of-the-art performance, surpassing previous works by a margin of 8.01\% using only RGB video as input. In order to choose the best model, after studying the literature in detail, different architectures, different techniques and a large number of experiments were tested. Thus, based on these we came to conclusions regarding the specifics of the base we are studying and proposed future extensions to other databases in order to further reduce the computational cost of such tasks while at the same time increasing their performance. en
heal.advisorName Μαραγκός, Πέτρος el
heal.advisorName Maragos, Petros en
heal.advisorName Ρετσινάς, Γεώργιος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 108 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα