heal.abstract |
Σκοπός αυτής της διπλωματικής εργασίας είναι ο σχεδιασμός ενός δικτύου αναγνώρισης και εντοπισμού οποιωνδήποτε ανθρώπινων ενεργειών σε ένα βίντεο. Το δίκτυό μας στοχεύει να εντοπίσει χωροχρονικά μια ανθρώπινη ενέργεια που εκτελείται σε ένα βίντεο παράγοντας ακολουθίες δισδιάστατων πλαισίων, ένα για κάθε καρέ βίντεο, περικλείοντας το άτομο που εκτελεί αυτή την ενέργεια και ταυτόχρονα να την εντοπίσει. Η αναγνώριση και ο εντοπισμός ανθρώπινων ενεργειών σε βίντεο είναι μια από τις μεγαλύτερες προκλήσεις στο πεδίο της ́Ορασης Υπολογιστών. Οι πιο πρόσφατες προσεγγίσεις περιλαμβάνουν ένα δίκτυο αναγνώρισης αντικειμένων το οποίο προτείνει δισδίαστατα κουτάκια ανά καρέ, έναν αλγόριθμο σύνδεσης για τη δημιουργία υποψήφιων action tubes και έναν ταξινομητή για την ταξινόμησή τους. Πάνω σ ́ αυτό, οι περισσότερες από αυτές τις προσεγγίσεις εξαγάγουν τις χρονικές πληροφορίες από ένα δίκτυο το οποίο εκτιμά οπτική ροή σε επίπεδο πλαισίου. Η εισαγωγή των τρισδιάστατων συνελικτικών δικτύων μας έχει βοηθήσει να μπορούμε να υπολογίσουμε τις χωροχρονικές πληροφορίες από τα βίντεο και ταυτόχρονα να εξάγουμε χωροχρονικά χαρακτηριστικά. Η προσέγγισή μας προσπαθεί να συνδυάσει τα οφέλη του να χρησιμοποιείς δίκτυα ανίχνευσης αντικειμένων και τρισδιάστατες συνελίξεις. Σχεδιάζουμε ένα δίκτυο του οποίου η δομή βασίζεται στα κλασσικά δίκτυα εντοπισμού δράσης και το ονομάζουμε ActionNet. Το πρώτο στοιχείο είναι ένα τρισδιάστατο ResNet34 το οποίο χρησιμοποιείται για τη εξαγωγή χωροχρονικών χαρακτηριστικών κάθε τμήματος του βίντεο που δέχεται ως είσοδο. Επίσης, σχεδιάζουμε ένα δίκτυο για να το οποίο προτείνει υποψήφιες ακολουθίες από δισδιάστατα πλαίσια με βάση χωροχρονικά χαρακτηριστικά, το οποίο ονομάζουμε Tube Proposal Network. Αυτό το δίκτυο είναι μια επέκταση του Region Proposal Network παίρνοντας ως είσοδο τα εξαγόμενα χαρακτηριστικά και εξάγοντας k προτεινόμενες ακολουθίες από δισδιάστατα κουτιά που πιθανώς να περιέχουν κάποια δράση. Εξετάζουμε 2 προσεγγίσεις για τον καθορισμό των τρισδιάστατων προκαθορισμένων κουτιών, τα οποία χρησιμοποιεί το TPN. Επιπλέον, σχεδιάζουμε έναν αλγόριθμο σύνδεσης για τη σύνδεση των προτεινόμενων ακολουθιών και δημιουργία των υποψήφιων action tubes. Τέλος, διερευνούμε αρκετές τεχνικές ταξινόμησης, συμπεριλαμβανομένου ενός ταξινομητή SVM, ενός Linear, ενός RNN και ενός MLP για τα σύνολα δεδομένων JHMDB και UCF101. |
el |