HEAL DSpace

Χωροχρονική αναγνώριση δράσης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βαγενάς, Νικηφόρος el
dc.contributor.author Vagenas, Nikiforos en
dc.date.accessioned 2025-01-13T12:09:47Z
dc.date.available 2025-01-13T12:09:47Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60717
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28413
dc.rights Default License
dc.subject Human Action Recognition en
dc.subject Spatiotemporal Data Analysis en
dc.subject Transformer en
dc.subject Maksed Autoencoder en
dc.subject Mask en
dc.title Χωροχρονική αναγνώριση δράσης el
heal.type bachelorThesis
heal.classification Μηχανική Μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-11
heal.abstract Η αναγνώριση ανθρώπινης δράσης σε βίντεο αποτελεί έναν από τα κυριότερα προβλήματα του τομέα της όρασης υπολογιστών και έχει συγκεντρώσει το ενδιαφέρον πολλών ερευνητών λόγω της δυνατότητας εφαρμογής της σε διάφορους τομείς της ανθρώπινης δραστηριότητας, από την ιατρική έως τον κόσμο του κινηματογράφου και της μόδας. Διαχρονικά έχουν χρησιμοποιηθεί πολλά μοντέλα βαθιάς μάθησης με σκοπό την ορθή πρόβλεψη της κλάσης, στην οποία ανήκει η δράση που αναπαρίσταται σε ένα βίντεο. Η βασική αρχιτεκτονική, που εφαρμόζεται για την ανάλυση εικόνων και βίντεο είναι τα συνελικτικά νευρωνικά δίκτυα, τα οποία διαθέτουν την ικανότητα εξαγωγής χαρακτηριστικών, όπως ακμές και υφές, από τα οπτικό υλικό, μέσω της εφαρμογής ειδικών φίλτρων στα δεδομένα. Πρόσφατα μεγάλο ενδιαφέρον παρουσιάζουν οι μετασχηματιστές, μοντέλο, που δανείστηκαν οι ερευνητές της όρασης υπολογιστών από τον τομέα επεξεργασίας φυσικής γλώσσας. Οι μετασχηματιστές απαιτούν περισσότερα δεδομένα, γεγονός που αυξάνει το υπολογιστικό κόστος, αλλά μπορούν να μάθουν τους συσχετισμούς μεταξύ των διαφορετικών τμημάτων μίας εικόνας ή βίντεο. Τέλος, οι αποκρύπτοντες αυτοκωδικοποιητές είναι αρχιτεκτονικές νευρωνικών δικτύων για την αναγνώριση δράσης σε βίντεο των τελευταίων δύο χρόνων, που χρησιμοποιούν τεχνικές απόκρυψης μέρους των δεδομένων και τους οπτικούς μετασχηματιστές, για να κάνουν ταξινόμηση στα δεδομένα εισόδου. Στόχος αυτής της διπλωματικής εργασίας είναι η αναπαραγωγή σε προγραμματιστικό περιβάλλον της εκπαίδευσης τριών από τα μοντέλα αποκρύπτοντων αυτοκωδικοποιητών, ώστε να παρουσιαστούν οι καλές τους επιδόσεις στο πρόβλημα αναγνώρισης ανθρώπινης δράσης σε βίντεο. Επιπλέον, εκτελούμε ένα πείραμα, όπου προεπεξεργαζόµαστε τα δεδομένα εισόδου με τέτοιο τρόπο, ώστε να αποκρύψουμε και στη διάσταση του χρόνου τμήματα αυτών. Με αυτόν τον τρόπο, θέλουμε να αναδείξουμε πως μπορεί στις συγκεκριμένες αρχιτεκτονικές δικτύου να μειωθεί ο χρόνος εκπαίδευσης με ελάχιστες απώλειες στην ορθότητα πρόβλεψης. el
heal.advisorName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 116 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής