HEAL DSpace

Ανίχνευση ενεργειών σε βίντεο με χρήση σάκου λέξεων και συγχώνευσης χαρακτηριστικών

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ηλιάκης, Μανώλης el
dc.contributor.author Iliakis, Manolis en
dc.date.accessioned 2018-03-26T10:38:19Z
dc.date.available 2018-03-26T10:38:19Z
dc.date.issued 2018-03-26
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/46777
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.15282
dc.rights Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ *
dc.subject Αναγνώριση ενεργειών σε βίντεο el
dc.subject Σάκος λέξεων el
dc.subject Πρώιμη συγχώνευση el
dc.subject Όψιμη συγχώνευση el
dc.subject UCF101 en
dc.subject Video action recognition en
dc.subject Bag of words en
dc.subject Early fusion en
dc.subject Late fusion en
dc.title Ανίχνευση ενεργειών σε βίντεο με χρήση σάκου λέξεων και συγχώνευσης χαρακτηριστικών el
heal.type bachelorThesis
heal.classification Αντίληψη και όραση υπολογιστών el
heal.classification Βασική μηχανική μάθηση el
heal.classificationURI http://data.seab.gr/concepts/12c1c913dbe758d67c4c509a6768bdbc7905830c
heal.classificationURI http://data.seab.gr/concepts/fec24cd140d4b110c225ac68fec062a57fb86360
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2018-01-25
heal.abstract Στη σημερινή εποχή που οι νέες τεχνολογίες της Τεχνητής Νοημοσύνης εισέρχονται με ραγδαίους ρυθμούς στην καθημερινότητα, ο κλάδος της Όρασης Υπολογιστών έχει γνωρίσει άνθιση, με την έρευνα να βελτιώνει συνεχώς τις μεθόδους που οι υπολογιστές αντιλαμβάνονται και αναλύουν τα οπτικά ερεθίσματα που δέχονται. Η ανίχνευση ενεργειών σε πολυμέσα απασχολεί ένα μεγάλο κομμάτι της έρευνας αυτής, και στοχεύει στην αναγνώριση από ένα σύστημα των ανθρωπίνων ενεργειών που εμπεριέχονται σε ένα αρχείο βίντεο, εικόνας κ.λπ. Με τον όρο ενέργεια, εννοούμε μια στοιχειώδη ανθρωποκεντρική αλληλεπίδραση με νόημα και μπορεί να αφορά από απλούστερες ενέργειες, όπως «Περπατάω», μέχρι πιο σύνθετες, όπως «Παίζω Ποδόσφαιρο». Στην εργασία μας υλοποιούμε ένα σύστημα ανίχνευσης ενεργειών, το οποίο εξάγει χαρακτηριστικά εικόνας, ήχου και κίνησης για την αναπαράσταση των βίντεο και τα κωδικοποιεί χρησιμοποιώντας τη διαδεδομένη τεχνική σάκου λέξεων (Bag of Words), που δημιουργεί ένα λεξικό από κομμάτια των δεδομένων εκπαίδευσης και εκφράζει το σύνολο των δεδομένων με βάση αυτά, δημιουργώντας μια εύρωστη αναπαράσταση με ένα διάνυσμα για κάθε βίντεο. Η τεχνική αυτή ευνοεί την εκπαίδευση ενός ταξινομητή, που στην περίπτωση μας είναι μια Μηχανή Διανυσμάτων Υποστήριξης (SVM) ο οποίος καλείται να κατηγοριοποιήσει τα βίντεο με βάση την κατηγορία ενέργειας που περιέχουν. Στη συνέχεια, πειραματιστήκαμε με διάφορες μεθόδους συγχώνευσης των εξαγμένων χαρακτηριστικών από τα δεδομένα μας, ώστε να επιτύχουμε πιο αντιπροσωπευτικές αναπαραστάσεις και να βελτιώσουμε την συνολική απόδοση του συστήματός μας. Συγκεκριμένα, υλοποιήσαμε μεθόδους πρώιμης συγχώνευσης, καθώς και μεθόδους όψιμης συγχώνευσης, με ή χωρίς επιπλέον εκπαίδευση. Ακόμη, μελετήσαμε και τις δυνατότητες συνδυασμού των δύο παραπάνω κατηγοριών μεθόδων συγχώνευσης. Τα αποτελέσματα που εξάγαμε, αναδεικνύουν τη σημασία της σωστής προεπεξεργασίας των δεδομένων μας πριν την εκπαίδευση των ταξινομητών ώστε να επιτύχουμε ένα αποδεκτό επίπεδο γενίκευσης. Ακόμη, συμπεραίνουμε ότι η συγχώνευση διαφορετικών χαρακτηριστικών, συμπληρωματικών μεταξύ τους, ακόμα και με απλές στην υλοποίησή τους μεθόδους, μπορεί να επιφέρει σημαντική βελτίωση στη συνολική απόδοση ενός τέτοιου συστήματος και μάλιστα τα πειραματικά αποτελέσματα ενθαρρύνουν περαιτέρω έρευνα σε αυτή την κατεύθυνση. el
heal.abstract Nowadays, Artificial Intelligence enters our everyday lives in a rapid pace and the field of Computer Vision has experienced great growth, while research constantly improves the way that computers u nderstand and analyze the visual clues which they receive. Multimedia Action Recognition has received attention of the research community. Its aim is to develop a system that detects human actions that appear in a video, picture etc. The term “action” mean s a basic person - related interaction with meaning and it might include the simplest actions, like “Walking”, or maybe more complex, like “Playing Soccer”. In this thesis, we develop an action recognition system, which extracts visual, sound and motion features for video representation and uses the well - known Bag of Words framework to represent these features using a codebook consisting of frag ments of train data. This codebook is used to encode the train data, creating a robust representation with a single vector for each video. This technique benefits the training process of a classifier, which in our case is a Support Vector Machine. The classifier predicts the action classes in which each video belongs. Moving on, we have experimented d ifferent feature fusion methods in order to achieve a more representative representation and finally to improve the average accuracy of our system. Specifically, we have impl emented early fusion methods as well as late fusion methods, with or without a meta - classifier. Furthermore, we checked the combination of different fusion categories. Our results highlight the significance of a proper preprocessing phase of our data befor e training the classifiers in order to achieve an acceptable level of generalization. Moreover, we conclude that even the simplest implementation of fusion of complementary features can result an important improvement in the average accuracy of our system. Our experimental results encourage further research towards this direction en
heal.advisorName Σταφυλοπάτης, Ανδρέας - Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας - Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 70 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα