HEAL DSpace

Πολυτροπική αναγνώριση και κατάτμηση δράσεων λεπτομέρειας σε βίντεο

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Γκανάτσιος, Νικόλαος el
dc.contributor.author Gkanatsios, Nikolaos en
dc.date.accessioned 2017-12-11T09:51:07Z
dc.date.available 2017-12-11T09:51:07Z
dc.date.issued 2017-12-11
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/46058
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14727
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αναγνώριση δράσεων el
dc.subject Κατάτμηση βίντεο el
dc.subject Πολυτροπική πληροφορία el
dc.subject Δυναμικός προγραμματισμός el
dc.subject Σημασιολογία el
dc.subject Action recognition en
dc.subject Video segmentation el
dc.subject Multimodal information el
dc.subject Dynamic programming el
dc.subject Semantics el
dc.title Πολυτροπική αναγνώριση και κατάτμηση δράσεων λεπτομέρειας σε βίντεο el
heal.type bachelorThesis
heal.classification Αντίληψη και όραση υπολογιστών el
heal.classificationURI http://data.seab.gr/concepts/12c1c913dbe758d67c4c509a6768bdbc7905830c
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-10-26
heal.abstract Ο βασικός στόχος-κίνητρο της παρούσας διπλωματικής εργασίας είναι η εξαγωγή αλγορίθμου δραστηριότητας από βίντεο σύνθετων ανθρώπινων δράσεων. Η πορεία μας εκκινεί από την παρουσίαση μιας γενικής και αφηρημένης μεθοδολογίας σχεδίασης ενός συστήματος που συνδυάζει πολυτροπική πληροφορία σε ένα ενιαίο σύστημα αναγνώρισης και κατάτμησης δράσεων σε βίντεο. Στη συνέχεια, προβαίνουμε στην υλοποίηση ενός τέτοιου συστήματος εστιάζοντας σε δράσεις λεπτομέρειας και πειραματιζόμενοι με την εξαγωγή και τον συνδυασμό χαρακτηριστικών πολλών καναλιών πληροφορίας, από οπτική (Πυκνές Τροχιές) μέχρι ακουστική (πληροφορίες υποτίτλων) και σημασιολογική (σχέσεις αντικειμένων-δράσεων και δράσεων-τύπων λαβής (grasping types)), με την τελευταία να εξάγεται και μέσω ανάλυσης κειμένου. Εξάγουμε χαρακτηριστικά από ανάλυση με τη μέθοδο Πυκνών Τροχιών, από ανίχνευση αντικειμένων, τόσο οπτικά, μέσα σε μια δυναμική περιοχή ενδιαφέροντος που παρακολουθούμε με χρήση ανιχνευτή ανθρώπων και προσκηνίου, όσο και μέσω υποτίτλων και από την εξαγωγή τύπων λαβής με χρήση ενός εύρωστου ανιχνευτή χεριών και συνελικτικών χαρακτηριστικών με χρήση ResNet. Εκτελούμε σειρά πειραμάτων σχετικά με την κωδικοποίηση και τις μεθόδους ταξινόμησης αυτών των χαρακτηριστικών και καταλήγουμε στο ενδιαφέρον συμπέρασμα ότι το σχήμα Tf-Idf (ολικής συχνότητας - αντίστροφης συχνότητας κειμένου) ή και η απλή σώρρευση χαρακτηριστικών μπορούν να αντικαταστήσουν τον χ^2 μετασχηματισμό πυρήνων κατά τη σύμμειξη καναλιών διαφορετικής πληροφορίας αυξάνοντας ελαφρά την ακρίβεια αλλά σημαντικά την επίδοση από άποψη ταχύτητας όταν συνδυαστεί με μια γραμμική Μηχανή Διανυσμάτων Στήριξης (SVM). Η ιδιότητα αυτή επιτρέπει στο σχήμα αυτό να χρησιμοποιηθεί αποδοτικά από αλγορίθμους κατάτμησης βίντεο. Η προσέγισή μας στο ζήτημα της κατάτμησης είναι η ελαχιστοποίηση της συνάρτησης κόστους SVM με χρήση πιθανοτήτων και ενός νέου αλγορίθμου δυναμικού προγραμματισμού που είναι αμερόληπτος ως προς το μέγεθος των τελικών τμημάτων. Τελικά, από το αποτέλεσμα της κατάτμησης εξάγουμε τον αλγόριθμο της δραστηριότητας κρατώντας τη χρήσιμη πληροφορία. Το σχήμα που χρησιμοποιούμε μας δίνει επιπλέον την πληροφορία αλληλεπίδρασης με τα αντικείμενα στον τελικό αλγόριθμο. el
heal.abstract The objective of the current Thesis is the extraction of an algorithm describing a complex human activity performed in an observed video. We start by presenting a generic and abstract methodology for designing a joint video action segmentation and classification system, combining multiple modalities. We further present our implementation of such a system, focusing on fine-rained activities and experimenting on efficiently extracting and combining multiple information channels, from LowLevel Visual information (Dense Trajectories) to sound (subtitles) and semantics (action-object relations and grasping type-action relations), with the last category being suported by text analysis. We extract features using Dense Trajectories, object detection and recognition, both visually, searching inside a dynamic region of interest constructed using a combination of human and foreground detection, and via subtitles and lastly using grasping type information. Tha last type of information is obtained by applying a robust hand detector and then classifying the hand regions using ResNet deep convolutional features. We perform a sequence of experiments regarding feature encoding and classification and reach to an interesting result, that we are able to replace the χ2 kernel fusion with Tf-Idf encodings or even feature concatenation, slightly increasing classification metrics but especially increase the speed of the classification progress, when a linear SVM is also used. This fact allows this schema to be efficiently used by video segmentation algorithms. Our approach when it comes to video segmentation is minimizing an SVM loss function using probabilities and a novel dynamic programming algorithm, invariant to final segments ’length. Our method also returns object handling information in the total extracted algorithm. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 132 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα