dc.contributor.author |
Στάμου, Φιλομένα
|
el |
dc.contributor.author |
Stamou, Filomena
|
en |
dc.date.accessioned |
2020-05-15T08:08:51Z |
|
dc.date.available |
2020-05-15T08:08:51Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/50590 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.18288 |
|
dc.rights |
Default License |
|
dc.subject |
Βαθιά μηχανική μάθηση |
el |
dc.subject |
Όραση Υπολογιστών |
el |
dc.subject |
Αναγνώριση ενεργειών σε βίντεο |
el |
dc.subject |
Οπτική Ροή |
el |
dc.subject |
Δίκτυο δύο ρευμάτων |
el |
dc.subject |
Deep learning |
en |
dc.subject |
Computer Vision |
el |
dc.subject |
Optical Flow |
el |
dc.subject |
Two stream network |
el |
dc.subject |
Human activity recognition |
el |
dc.title |
Αναγνώριση ανθρώπινων ενεργειών σε βίντεο με την χρήση Βαθιών Νευρωνικών δικτύων. |
el |
dc.title |
Video Action Recognition using Deep Neural Networks. |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Βαθιά Μηχανική Μάθηση |
el |
heal.classification |
Επιστήμη Δεδομένων |
el |
heal.classification |
Όραση Υπολογιστών |
el |
heal.classification |
Deep Learning |
el |
heal.classification |
Computer Vision |
el |
heal.classification |
Data Science |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2019-11-19 |
|
heal.abstract |
Το θέμα της παρούσας διπλωματικής εργασίας είναι η Αναγνώριση Ανθρώπινων Ενεργειών σε ψηφιακά βίντεο (Video Action Recognition) κάνοντας χρήση τεχνικών της Βαθιάς Μηχανικής Μάθησης (Deep Learning). Το συγκεκριμένο πρόβλημα έχει βρεθεί στο επίκεντρο σημαντικών επιστημονικών και ερευνητικών προσπαθειών κατά τη διάρκεια των τελευταίων χρόνων, χάρη στην εφαρμογή που βρίσκει σε ένα ευρύ φάσμα τομέων. Καθημερινά προκύπτει ένας τεράστιος όγκος ψηφιακών δεδομένων, με αποτέλεσμα να κρίνεται αναγκαία η βαθύτερη κατανόηση της δομής τους και η ανακάλυψη τρόπων επεξεργασίας και εξαγωγής χρήσιμης γνώσης από αυτά. Η πληροφορία που περιέχεται σε ένα ψηφιακό βίντεο μπορεί να φανεί χρήσιμη σε κλάδους όπως η παρακολούθηση χώρων μέσω κάμερας (video surveillance), η αυτόματη οδήγηση (self-driving cars) ή η αλληλεπίδραση μεταξύ ανθρώπου-υπολογιστή (human-computer interaction). Προκειμένου να προσεγγίσουμε το περιεχόμενο του Video Action Recognition, αρχικά παρουσιάζουμε ένα σύνολο μεθόδων και αρχιτεκτονικών που έχουν χρησιμοποιηθεί για την επίλυση του προβλήματος. Εστιάζουμε την προσοχή μας στις τεχνικές που προέρχονται από τον χώρο της Βαθιάς Μηχανικής Μάθησης και μελετάμε τις επιδόσεις που έχουν σημειώσει. Στο Κεφάλαιο 5 του εγγράφου υλοποιούμε το δικό μας μοντέλο αναγνώρισης ενεργειών σε βίντεο, το οποίο είναι βασισμένο στα Συνελικτικά Νευρωνικά Δίκτυα (CNN) και στα δίκτυα Δύο-Ρευμάτων (Two-Stream Networks). Χρησιμοποιούμε τα 13320 δεδομένα βίντεοπου περιέχονται στο dataset UCF-101, τα επεξεργαζόμαστε και εξάγουμε τα χαρακτηριστικά τους, προκειμένου να καταλήξουμε σε μία πρόβλεψη σχετικά με την αναπαριστούμενη ενέργεια του κάθε βίντεο. |
el |
heal.abstract |
This diploma thesis deals with Video Action Recognition utilizing Deep Learning techniques. Video activity recognition, although being an emerging task, has been the subject of important research efforts due to the importance of its everyday applications. The huge amount of data that are generated on an everyday basis has encouraged the research community to better investigate videos and to develop ways in order to exclude valuable knowledge through data (Data Mining). This field is useful to a number of applications, such as video-surveillance, self-driving cars and human-computer interaction. Activity recognition consists of identifying some actions from a series of observations. As part of the document, we discuss about the main techniques used for activity recognition in computer vision, namely Video-based Activity Recognition focusing on the state-of-the-art methods while at the same time mentioning other techniques used for the same task that the research community has known for several years. For each of the analyzed models,its contribution over previous works an the proposed approach performance are examined. On the Chapter 5 of this paper we try to implement a video action recognition technique that uses Deep Convolutional Neural Networks (CNN) and combines both spatial and temporal information from video frames. We present all the preprocessing that is applied to out data (dataset UCF-101) prior to feeding them into our model and the results of our predictions. |
en |
heal.advisorName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.advisorName |
Stafylopatis, Andreas-Georgios |
en |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.committeeMemberName |
Τσανάκας, Παναγιώτης |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
108 σ. |
el |
heal.fullTextAvailability |
false |
|