HEAL DSpace

Αναγνώριση και εντοπισμός ανθρώπινης δραστηριότητας σε βίντεο

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Γαλανάκης, Ευστάθιος el
dc.contributor.author Galanakis, Efstathios en
dc.date.accessioned 2020-05-01T21:29:09Z
dc.date.available 2020-05-01T21:29:09Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/50335
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.18033
dc.rights Default License
dc.subject Videos en
dc.subject Όραση υπολογιστών el
dc.subject Action Localization en
dc.subject Action Recognition en
dc.subject Machine Learning en
dc.subject Computer Vision en
dc.subject Αναγνώριση δράσης el
dc.subject Βίντεο el
dc.subject Εντοπισμός δράσης el
dc.subject Μηχανική Μάθηση el
dc.title Αναγνώριση και εντοπισμός ανθρώπινης δραστηριότητας σε βίντεο el
heal.type bachelorThesis
heal.classification Computer Vision el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-11-06
heal.abstract Σκοπός αυτής της διπλωματικής εργασίας είναι ο σχεδιασμός ενός δικτύου αναγνώρισης και εντοπισμού οποιωνδήποτε ανθρώπινων ενεργειών σε ένα βίντεο. Το δίκτυό μας στοχεύει να εντοπίσει χωροχρονικά μια ανθρώπινη ενέργεια που εκτελείται σε ένα βίντεο παράγοντας ακολουθίες δισδιάστατων πλαισίων, ένα για κάθε καρέ βίντεο, περικλείοντας το άτομο που εκτελεί αυτή την ενέργεια και ταυτόχρονα να την εντοπίσει. Η αναγνώριση και ο εντοπισμός ανθρώπινων ενεργειών σε βίντεο είναι μια από τις μεγαλύτερες προκλήσεις στο πεδίο της ́Ορασης Υπολογιστών. Οι πιο πρόσφατες προσεγγίσεις περιλαμβάνουν ένα δίκτυο αναγνώρισης αντικειμένων το οποίο προτείνει δισδίαστατα κουτάκια ανά καρέ, έναν αλγόριθμο σύνδεσης για τη δημιουργία υποψήφιων action tubes και έναν ταξινομητή για την ταξινόμησή τους. Πάνω σ ́ αυτό, οι περισσότερες από αυτές τις προσεγγίσεις εξαγάγουν τις χρονικές πληροφορίες από ένα δίκτυο το οποίο εκτιμά οπτική ροή σε επίπεδο πλαισίου. Η εισαγωγή των τρισδιάστατων συνελικτικών δικτύων μας έχει βοηθήσει να μπορούμε να υπολογίσουμε τις χωροχρονικές πληροφορίες από τα βίντεο και ταυτόχρονα να εξάγουμε χωροχρονικά χαρακτηριστικά. Η προσέγγισή μας προσπαθεί να συνδυάσει τα οφέλη του να χρησιμοποιείς δίκτυα ανίχνευσης αντικειμένων και τρισδιάστατες συνελίξεις. Σχεδιάζουμε ένα δίκτυο του οποίου η δομή βασίζεται στα κλασσικά δίκτυα εντοπισμού δράσης και το ονομάζουμε ActionNet. Το πρώτο στοιχείο είναι ένα τρισδιάστατο ResNet34 το οποίο χρησιμοποιείται για τη εξαγωγή χωροχρονικών χαρακτηριστικών κάθε τμήματος του βίντεο που δέχεται ως είσοδο. Επίσης, σχεδιάζουμε ένα δίκτυο για να το οποίο προτείνει υποψήφιες ακολουθίες από δισδιάστατα πλαίσια με βάση χωροχρονικά χαρακτηριστικά, το οποίο ονομάζουμε Tube Proposal Network. Αυτό το δίκτυο είναι μια επέκταση του Region Proposal Network παίρνοντας ως είσοδο τα εξαγόμενα χαρακτηριστικά και εξάγοντας k προτεινόμενες ακολουθίες από δισδιάστατα κουτιά που πιθανώς να περιέχουν κάποια δράση. Εξετάζουμε 2 προσεγγίσεις για τον καθορισμό των τρισδιάστατων προκαθορισμένων κουτιών, τα οποία χρησιμοποιεί το TPN. Επιπλέον, σχεδιάζουμε έναν αλγόριθμο σύνδεσης για τη σύνδεση των προτεινόμενων ακολουθιών και δημιουργία των υποψήφιων action tubes. Τέλος, διερευνούμε αρκετές τεχνικές ταξινόμησης, συμπεριλαμβανομένου ενός ταξινομητή SVM, ενός Linear, ενός RNN και ενός MLP για τα σύνολα δεδομένων JHMDB και UCF101. el
heal.advisorName Μαραγκός, Πέτρος
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ψυλλάκης, Χαράλαμπος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής