dc.contributor.author | Γκανάτσιος, Νικόλαος | el |
dc.contributor.author | Gkanatsios, Nikolaos | en |
dc.date.accessioned | 2017-12-11T09:51:07Z | |
dc.date.available | 2017-12-11T09:51:07Z | |
dc.date.issued | 2017-12-11 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/46058 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.14727 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Αναγνώριση δράσεων | el |
dc.subject | Κατάτμηση βίντεο | el |
dc.subject | Πολυτροπική πληροφορία | el |
dc.subject | Δυναμικός προγραμματισμός | el |
dc.subject | Σημασιολογία | el |
dc.subject | Action recognition | en |
dc.subject | Video segmentation | el |
dc.subject | Multimodal information | el |
dc.subject | Dynamic programming | el |
dc.subject | Semantics | el |
dc.title | Πολυτροπική αναγνώριση και κατάτμηση δράσεων λεπτομέρειας σε βίντεο | el |
heal.type | bachelorThesis | |
heal.classification | Αντίληψη και όραση υπολογιστών | el |
heal.classificationURI | http://data.seab.gr/concepts/12c1c913dbe758d67c4c509a6768bdbc7905830c | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2017-10-26 | |
heal.abstract | Ο βασικός στόχος-κίνητρο της παρούσας διπλωματικής εργασίας είναι η εξαγωγή αλγορίθμου δραστηριότητας από βίντεο σύνθετων ανθρώπινων δράσεων. Η πορεία μας εκκινεί από την παρουσίαση μιας γενικής και αφηρημένης μεθοδολογίας σχεδίασης ενός συστήματος που συνδυάζει πολυτροπική πληροφορία σε ένα ενιαίο σύστημα αναγνώρισης και κατάτμησης δράσεων σε βίντεο. Στη συνέχεια, προβαίνουμε στην υλοποίηση ενός τέτοιου συστήματος εστιάζοντας σε δράσεις λεπτομέρειας και πειραματιζόμενοι με την εξαγωγή και τον συνδυασμό χαρακτηριστικών πολλών καναλιών πληροφορίας, από οπτική (Πυκνές Τροχιές) μέχρι ακουστική (πληροφορίες υποτίτλων) και σημασιολογική (σχέσεις αντικειμένων-δράσεων και δράσεων-τύπων λαβής (grasping types)), με την τελευταία να εξάγεται και μέσω ανάλυσης κειμένου. Εξάγουμε χαρακτηριστικά από ανάλυση με τη μέθοδο Πυκνών Τροχιών, από ανίχνευση αντικειμένων, τόσο οπτικά, μέσα σε μια δυναμική περιοχή ενδιαφέροντος που παρακολουθούμε με χρήση ανιχνευτή ανθρώπων και προσκηνίου, όσο και μέσω υποτίτλων και από την εξαγωγή τύπων λαβής με χρήση ενός εύρωστου ανιχνευτή χεριών και συνελικτικών χαρακτηριστικών με χρήση ResNet. Εκτελούμε σειρά πειραμάτων σχετικά με την κωδικοποίηση και τις μεθόδους ταξινόμησης αυτών των χαρακτηριστικών και καταλήγουμε στο ενδιαφέρον συμπέρασμα ότι το σχήμα Tf-Idf (ολικής συχνότητας - αντίστροφης συχνότητας κειμένου) ή και η απλή σώρρευση χαρακτηριστικών μπορούν να αντικαταστήσουν τον χ^2 μετασχηματισμό πυρήνων κατά τη σύμμειξη καναλιών διαφορετικής πληροφορίας αυξάνοντας ελαφρά την ακρίβεια αλλά σημαντικά την επίδοση από άποψη ταχύτητας όταν συνδυαστεί με μια γραμμική Μηχανή Διανυσμάτων Στήριξης (SVM). Η ιδιότητα αυτή επιτρέπει στο σχήμα αυτό να χρησιμοποιηθεί αποδοτικά από αλγορίθμους κατάτμησης βίντεο. Η προσέγισή μας στο ζήτημα της κατάτμησης είναι η ελαχιστοποίηση της συνάρτησης κόστους SVM με χρήση πιθανοτήτων και ενός νέου αλγορίθμου δυναμικού προγραμματισμού που είναι αμερόληπτος ως προς το μέγεθος των τελικών τμημάτων. Τελικά, από το αποτέλεσμα της κατάτμησης εξάγουμε τον αλγόριθμο της δραστηριότητας κρατώντας τη χρήσιμη πληροφορία. Το σχήμα που χρησιμοποιούμε μας δίνει επιπλέον την πληροφορία αλληλεπίδρασης με τα αντικείμενα στον τελικό αλγόριθμο. | el |
heal.abstract | The objective of the current Thesis is the extraction of an algorithm describing a complex human activity performed in an observed video. We start by presenting a generic and abstract methodology for designing a joint video action segmentation and classification system, combining multiple modalities. We further present our implementation of such a system, focusing on fine-rained activities and experimenting on efficiently extracting and combining multiple information channels, from LowLevel Visual information (Dense Trajectories) to sound (subtitles) and semantics (action-object relations and grasping type-action relations), with the last category being suported by text analysis. We extract features using Dense Trajectories, object detection and recognition, both visually, searching inside a dynamic region of interest constructed using a combination of human and foreground detection, and via subtitles and lastly using grasping type information. Tha last type of information is obtained by applying a robust hand detector and then classifying the hand regions using ResNet deep convolutional features. We perform a sequence of experiments regarding feature encoding and classification and reach to an interesting result, that we are able to replace the χ2 kernel fusion with Tf-Idf encodings or even feature concatenation, slightly increasing classification metrics but especially increase the speed of the classification progress, when a linear SVM is also used. This fact allows this schema to be efficiently used by video segmentation algorithms. Our approach when it comes to video segmentation is minimizing an SVM loss function using probabilities and a novel dynamic programming algorithm, invariant to final segments ’length. Our method also returns object handling information in the total extracted algorithm. | en |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 132 σ. | el |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: