dc.contributor.author | Ηλιάκης, Μανώλης | el |
dc.contributor.author | Iliakis, Manolis | en |
dc.date.accessioned | 2018-03-26T10:38:19Z | |
dc.date.available | 2018-03-26T10:38:19Z | |
dc.date.issued | 2018-03-26 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/46777 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.15282 | |
dc.rights | Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ | * |
dc.subject | Αναγνώριση ενεργειών σε βίντεο | el |
dc.subject | Σάκος λέξεων | el |
dc.subject | Πρώιμη συγχώνευση | el |
dc.subject | Όψιμη συγχώνευση | el |
dc.subject | UCF101 | en |
dc.subject | Video action recognition | en |
dc.subject | Bag of words | en |
dc.subject | Early fusion | en |
dc.subject | Late fusion | en |
dc.title | Ανίχνευση ενεργειών σε βίντεο με χρήση σάκου λέξεων και συγχώνευσης χαρακτηριστικών | el |
heal.type | bachelorThesis | |
heal.classification | Αντίληψη και όραση υπολογιστών | el |
heal.classification | Βασική μηχανική μάθηση | el |
heal.classificationURI | http://data.seab.gr/concepts/12c1c913dbe758d67c4c509a6768bdbc7905830c | |
heal.classificationURI | http://data.seab.gr/concepts/fec24cd140d4b110c225ac68fec062a57fb86360 | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2018-01-25 | |
heal.abstract | Στη σημερινή εποχή που οι νέες τεχνολογίες της Τεχνητής Νοημοσύνης εισέρχονται με ραγδαίους ρυθμούς στην καθημερινότητα, ο κλάδος της Όρασης Υπολογιστών έχει γνωρίσει άνθιση, με την έρευνα να βελτιώνει συνεχώς τις μεθόδους που οι υπολογιστές αντιλαμβάνονται και αναλύουν τα οπτικά ερεθίσματα που δέχονται. Η ανίχνευση ενεργειών σε πολυμέσα απασχολεί ένα μεγάλο κομμάτι της έρευνας αυτής, και στοχεύει στην αναγνώριση από ένα σύστημα των ανθρωπίνων ενεργειών που εμπεριέχονται σε ένα αρχείο βίντεο, εικόνας κ.λπ. Με τον όρο ενέργεια, εννοούμε μια στοιχειώδη ανθρωποκεντρική αλληλεπίδραση με νόημα και μπορεί να αφορά από απλούστερες ενέργειες, όπως «Περπατάω», μέχρι πιο σύνθετες, όπως «Παίζω Ποδόσφαιρο». Στην εργασία μας υλοποιούμε ένα σύστημα ανίχνευσης ενεργειών, το οποίο εξάγει χαρακτηριστικά εικόνας, ήχου και κίνησης για την αναπαράσταση των βίντεο και τα κωδικοποιεί χρησιμοποιώντας τη διαδεδομένη τεχνική σάκου λέξεων (Bag of Words), που δημιουργεί ένα λεξικό από κομμάτια των δεδομένων εκπαίδευσης και εκφράζει το σύνολο των δεδομένων με βάση αυτά, δημιουργώντας μια εύρωστη αναπαράσταση με ένα διάνυσμα για κάθε βίντεο. Η τεχνική αυτή ευνοεί την εκπαίδευση ενός ταξινομητή, που στην περίπτωση μας είναι μια Μηχανή Διανυσμάτων Υποστήριξης (SVM) ο οποίος καλείται να κατηγοριοποιήσει τα βίντεο με βάση την κατηγορία ενέργειας που περιέχουν. Στη συνέχεια, πειραματιστήκαμε με διάφορες μεθόδους συγχώνευσης των εξαγμένων χαρακτηριστικών από τα δεδομένα μας, ώστε να επιτύχουμε πιο αντιπροσωπευτικές αναπαραστάσεις και να βελτιώσουμε την συνολική απόδοση του συστήματός μας. Συγκεκριμένα, υλοποιήσαμε μεθόδους πρώιμης συγχώνευσης, καθώς και μεθόδους όψιμης συγχώνευσης, με ή χωρίς επιπλέον εκπαίδευση. Ακόμη, μελετήσαμε και τις δυνατότητες συνδυασμού των δύο παραπάνω κατηγοριών μεθόδων συγχώνευσης. Τα αποτελέσματα που εξάγαμε, αναδεικνύουν τη σημασία της σωστής προεπεξεργασίας των δεδομένων μας πριν την εκπαίδευση των ταξινομητών ώστε να επιτύχουμε ένα αποδεκτό επίπεδο γενίκευσης. Ακόμη, συμπεραίνουμε ότι η συγχώνευση διαφορετικών χαρακτηριστικών, συμπληρωματικών μεταξύ τους, ακόμα και με απλές στην υλοποίησή τους μεθόδους, μπορεί να επιφέρει σημαντική βελτίωση στη συνολική απόδοση ενός τέτοιου συστήματος και μάλιστα τα πειραματικά αποτελέσματα ενθαρρύνουν περαιτέρω έρευνα σε αυτή την κατεύθυνση. | el |
heal.abstract | Nowadays, Artificial Intelligence enters our everyday lives in a rapid pace and the field of Computer Vision has experienced great growth, while research constantly improves the way that computers u nderstand and analyze the visual clues which they receive. Multimedia Action Recognition has received attention of the research community. Its aim is to develop a system that detects human actions that appear in a video, picture etc. The term “action” mean s a basic person - related interaction with meaning and it might include the simplest actions, like “Walking”, or maybe more complex, like “Playing Soccer”. In this thesis, we develop an action recognition system, which extracts visual, sound and motion features for video representation and uses the well - known Bag of Words framework to represent these features using a codebook consisting of frag ments of train data. This codebook is used to encode the train data, creating a robust representation with a single vector for each video. This technique benefits the training process of a classifier, which in our case is a Support Vector Machine. The classifier predicts the action classes in which each video belongs. Moving on, we have experimented d ifferent feature fusion methods in order to achieve a more representative representation and finally to improve the average accuracy of our system. Specifically, we have impl emented early fusion methods as well as late fusion methods, with or without a meta - classifier. Furthermore, we checked the combination of different fusion categories. Our results highlight the significance of a proper preprocessing phase of our data befor e training the classifiers in order to achieve an acceptable level of generalization. Moreover, we conclude that even the simplest implementation of fusion of complementary features can result an important improvement in the average accuracy of our system. Our experimental results encourage further research towards this direction | en |
heal.advisorName | Σταφυλοπάτης, Ανδρέας - Γεώργιος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας - Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Τσανάκας, Παναγιώτης | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 70 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: