Αναγνώριση και εντοπισμός ανθρώπινης δραστηριότητας σε βίντεο

Γαλανάκης, Ευστάθιος; Galanakis, Efstathios

dc.contributor.author	Γαλανάκης, Ευστάθιος	el
dc.contributor.author	Galanakis, Efstathios	en
dc.date.accessioned	2020-05-01T21:29:09Z
dc.date.available	2020-05-01T21:29:09Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/50335
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.18033
dc.rights	Default License
dc.subject	Videos	en
dc.subject	Όραση υπολογιστών	el
dc.subject	Action Localization	en
dc.subject	Action Recognition	en
dc.subject	Machine Learning	en
dc.subject	Computer Vision	en
dc.subject	Αναγνώριση δράσης	el
dc.subject	Βίντεο	el
dc.subject	Εντοπισμός δράσης	el
dc.subject	Μηχανική Μάθηση	el
dc.title	Αναγνώριση και εντοπισμός ανθρώπινης δραστηριότητας σε βίντεο	el
heal.type	bachelorThesis
heal.classification	Computer Vision	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-11-06
heal.abstract	Σκοπός αυτής της διπλωματικής εργασίας είναι ο σχεδιασμός ενός δικτύου αναγνώρισης και εντοπισμού οποιωνδήποτε ανθρώπινων ενεργειών σε ένα βίντεο. Το δίκτυό μας στοχεύει να εντοπίσει χωροχρονικά μια ανθρώπινη ενέργεια που εκτελείται σε ένα βίντεο παράγοντας ακολουθίες δισδιάστατων πλαισίων, ένα για κάθε καρέ βίντεο, περικλείοντας το άτομο που εκτελεί αυτή την ενέργεια και ταυτόχρονα να την εντοπίσει. Η αναγνώριση και ο εντοπισμός ανθρώπινων ενεργειών σε βίντεο είναι μια από τις μεγαλύτερες προκλήσεις στο πεδίο της ́Ορασης Υπολογιστών. Οι πιο πρόσφατες προσεγγίσεις περιλαμβάνουν ένα δίκτυο αναγνώρισης αντικειμένων το οποίο προτείνει δισδίαστατα κουτάκια ανά καρέ, έναν αλγόριθμο σύνδεσης για τη δημιουργία υποψήφιων action tubes και έναν ταξινομητή για την ταξινόμησή τους. Πάνω σ ́ αυτό, οι περισσότερες από αυτές τις προσεγγίσεις εξαγάγουν τις χρονικές πληροφορίες από ένα δίκτυο το οποίο εκτιμά οπτική ροή σε επίπεδο πλαισίου. Η εισαγωγή των τρισδιάστατων συνελικτικών δικτύων μας έχει βοηθήσει να μπορούμε να υπολογίσουμε τις χωροχρονικές πληροφορίες από τα βίντεο και ταυτόχρονα να εξάγουμε χωροχρονικά χαρακτηριστικά. Η προσέγγισή μας προσπαθεί να συνδυάσει τα οφέλη του να χρησιμοποιείς δίκτυα ανίχνευσης αντικειμένων και τρισδιάστατες συνελίξεις. Σχεδιάζουμε ένα δίκτυο του οποίου η δομή βασίζεται στα κλασσικά δίκτυα εντοπισμού δράσης και το ονομάζουμε ActionNet. Το πρώτο στοιχείο είναι ένα τρισδιάστατο ResNet34 το οποίο χρησιμοποιείται για τη εξαγωγή χωροχρονικών χαρακτηριστικών κάθε τμήματος του βίντεο που δέχεται ως είσοδο. Επίσης, σχεδιάζουμε ένα δίκτυο για να το οποίο προτείνει υποψήφιες ακολουθίες από δισδιάστατα πλαίσια με βάση χωροχρονικά χαρακτηριστικά, το οποίο ονομάζουμε Tube Proposal Network. Αυτό το δίκτυο είναι μια επέκταση του Region Proposal Network παίρνοντας ως είσοδο τα εξαγόμενα χαρακτηριστικά και εξάγοντας k προτεινόμενες ακολουθίες από δισδιάστατα κουτιά που πιθανώς να περιέχουν κάποια δράση. Εξετάζουμε 2 προσεγγίσεις για τον καθορισμό των τρισδιάστατων προκαθορισμένων κουτιών, τα οποία χρησιμοποιεί το TPN. Επιπλέον, σχεδιάζουμε έναν αλγόριθμο σύνδεσης για τη σύνδεση των προτεινόμενων ακολουθιών και δημιουργία των υποψήφιων action tubes. Τέλος, διερευνούμε αρκετές τεχνικές ταξινόμησης, συμπεριλαμβανομένου ενός ταξινομητή SVM, ενός Linear, ενός RNN και ενός MLP για τα σύνολα δεδομένων JHMDB και UCF101.	el
heal.advisorName	Μαραγκός, Πέτρος
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Ψυλλάκης, Χαράλαμπος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false