Εκμάθηση χωροχρονικών αναπαραστάσεων και μοντελοποίηση οπτικής προσοχής σε προβλήματα όρασης υπολογιστών

Κούτρας, Πέτρος Ν.; Koutras, Petros

dc.contributor.author	Κούτρας, Πέτρος Ν.	el
dc.contributor.author	Koutras, Petros	en
dc.date.accessioned	2020-11-30T17:57:29Z
dc.date.available	2020-11-30T17:57:29Z
dc.date.created	2020-11-30
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52102
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.19800
dc.description.abstract	Στα πλαίσια της διδακτορικής διατριβής αρχικά αναπτύχθηκε και προτάθηκε ένα χωροχρονικό μοντέλο για την ανάλυση βίντεο και την οπτική προσοχή εμπνευσμένο από την ανθρώπινη αντίληψη, το οποίο χρησιμοποιήθηκε και αξιολογήθηκε στα χωροχρονικά προβλήματα της οπτικής προσοχής (μέσω της πρόβλεψης των σημείων εστίασης των ματιών), της αναγνώρισης δράσεων αλλά και της δημιουργίας περιλήψεων από βίντεο. Το χωροχρονικό αυτό μοντέλο μπορεί να παρέχει πληροφορία σχετικά με την κίνηση σε διαφορετικές κλίμακες και κατευθύνσεις χωρίς να χρειάζεται να την επεξεργαστεί σαν μια ξεχωριστή ροή πληροφορίας υπολογισμένη από έναν μικρό αριθμό καρέ του βίντεο. Με αυτό τον τρόπο η προσέγγιση αυτή επιτυγχάνει να εντοπίζει τόσο τις πολύ γρήγορες αλλαγές του βίντεο όσο και τις πιο αργές αλλαγές στην κίνηση που σχετίζονται με την αναγνώριση δράσεων ή προεξεχόντων γεγονότων. Πρόσφατα, η ευρεία χρήση τεχνικών βαθιάς μάθησης, όπως τα συνελικτικά νευρωνικά δίκτυα (Convolutional Neural Networks - CNNs), έχει ενισχύσει σημαντικά την απόδοση στην πλειοψηφία των στατικών προβλημάτων της όρασης υπολογιστών, όπως ο εντοπισμός αντικειμένων ή η σημασιολογική κατάτμηση. Αντίθετα η έρευνα σχετικά με τη σχεδίαση και εκμάθηση αναπαραστάσεων για τα προβλήματα της όρασης υπολογιστών που σχετίζονται με το χρόνο, είναι αρκετά μικρότερη και η απόδοση των δυναμικών μεθόδων και αλγορίθμων παραμένει σε αρκετές περιπτώσεις συγκρίσιμη με την εφαρμογή των στατικών προσεγγίσεων μεμονωμένα σε κάθε καρέ του βίντεο. Για το σκοπό αυτό προτάθηκε ένα χωροχρονικό βαθύ νευρωνικό δίκτυο πολλαπλών εργασιών, το οποίο μπορεί να αντιμετωπίσει από κοινού τα χωροχρονικά προβλήματα της εκτίμησης της προσοχής, της αναγνώρισης δράσεων και της δημιουργίας περιλήψεων από βίντεο. Η προτεινόμενη προσέγγιση χρησιμοποιεί ένα ενιαίο βαθύ νευρωνικό δίκτυο που εκπαιδεύεται ενιαία και από κοινού για όλες τις εργασίες με τη χρήση πολλαπλών και διαφορετικών βάσεων δεδομένων που σχετίζονται με τις εργασίες που εξετάζονται. Το προτεινόμενο δίκτυο χρησιμοποιεί μια ενοποιημένη αρχιτεκτονική που περιλαμβάνει επίπεδα γενικού σκοπού αλλά και επίπεδα που σχετίζονται με μια συγκεκριμένη εργασία και παράγει εξόδους πολλαπλών τύπων, δηλαδή χάρτες προσοχής ή ετικέτες ταξινόμησης, χρησιμοποιώντας σαν είσοδο το ίδιο βίντεο. Από την εκτεταμένη αξιολόγηση, σε επτά διαφορετικές βάσεις δεδομένων, παρατηρούμε ότι το δίκτυο πολλαπλών εργασιών αποδίδει το ίδιο καλά (ή σε ορισμένες περιπτώσεις καλύτερα) με τις τελευταίες (state-of-the-art) μεθόδους που σχεδιάστηκαν για μια μόνο εργασία, ενώ απαιτεί λιγότερους υπολογιστικούς πόρους σε αντίθεση με το έχουμε ένα ανεξάρτητο δίκτυο ανά κάθε μια εργασία. Παράλληλα με τα προτεινόμενα μοντέλα εκμάθησης χωροχρονικών αναπαραστάσεων, διερευνήθηκαν και προτάθηκαν επιπρόσθετες μέθοδοι για την επίλυση καθενός από τα παραπάνω χωροχρονικά προβλήματα οι οποίες ξεπέρασαν σε απόδοση τις τότε υπάρχουσες μεθόδους της βιβλιογραφίας σε αρκετές βάσεις αξιολόγησης. Για το σκοπό αυτό, αναπτύχθηκε ένα πολυτροπικό σύστημα ανίχνευσης προεξεχόντων γεγονότων και δημιουργίας περιλήψεων βασισμένο στις τροπικότητες εικόνας, ήχου και κειμένου. Η απόδοση του συστήματος αξιολογήθηκε με βάση επισημειώσεις χρηστών σε βίντεο ταινιών και ντοκιμαντέρ και κατόρθωσε να βελτιώσει σημαντικά τα υπάρχοντα συστήματα δημιουργίας περιλήψεων. Στα πλαίσια μελέτης των προβλημάτων που σχετίζονται με το χρόνο, έγινε επέκταση και ενσωμάτωση μεθόδων της όρασης υπολογιστών σε προβλήματα της ρομποτικής και ιδιαίτερα σε εφαρμογές που σχετίζονται με την επικοινωνία και αλληλεπίδραση των ρομπότ με ειδικές ηλικιακές ομάδες και συγκεκριμένα με ηλικιωμένους και παιδιά. Πιο συγκεκριμένα αναπτύχθηκαν μέθοδοι και μοντέλα αναγνώρισης ανθρώπινων δράσεων και χειρονομιών αξιοποιώντας την πληροφορία από πολλαπλές κάμερες. Τα αποτελέσματα τόσο σε βάσεις δεδομένων όσο και με πραγματικούς χρήστες αναδεικνύουν την αποτελεσματικότητα και καταλληλότητα των μεθόδων στα προβλήματα επικοινωνίας ανθρώπου-ρομπότ. Τέλος, προτάθηκε και υλοποιήθηκε ένα σύστημα αναγνώρισης δράσεων και χειρονομιών για προβλήματα αλληλεπίδρασης ανθρώπου-ρομπότ βασισμένο στην τεχνολογία των νευρωνικών δικτύων. Το προτεινόμενο σύστημα αξιοποιεί την πληροφορία υψηλού επιπέδου, όπως η πόζα του σώματος και των χεριών, που προκύπτει από την επεξεργασία της αρχικής οπτικής πληροφορίας από state-of-the-art μεθόδους βαθιάς εκμάθησης. Τα πειραματικά αποτελέσματα σε πολλαπλές βάσεις, τόσο με υγιείς χρήστες όσο και με ασθενείς, έδειξαν ότι το προτεινόμενο σύστημα μπορεί να επιτύχει αρκετά υψηλά επίπεδα αναγνώρισης ενώ η ενσωμάτωση του σε ρομποτικές πλατφόρμες δίνει τη δυνατότητα παρακολούθησης και αναγνώρισης των ανθρώπινων δραστηριοτήτων σε πραγματικό χρόνο.	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Όραση υπολογιστών	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Χωροχρονικές αναπαραστάσεις	el
dc.subject	Οπτική προσοχή	el
dc.subject	Αναγνώριση δράσεων	el
dc.subject	Δημιουργία περιλήψεων	el
dc.subject	Νευρωνικά δίκτυα	el
dc.subject	Αλληλεπίδραση ανθρώπου-ρομπότ	el
dc.subject	Computer vision	en
dc.subject	Machine learning	en
dc.subject	Spatio-temporal representations	en
dc.subject	Visual attention	en
dc.subject	Action recognition	en
dc.subject	Summarization	en
dc.subject	Neural networks	en
dc.subject	Human-robot interaction	en
dc.title	Εκμάθηση χωροχρονικών αναπαραστάσεων και μοντελοποίηση οπτικής προσοχής σε προβλήματα όρασης υπολογιστών	el
dc.title.alternative	Spatio-temporal representations learning and visual attention modeling in computer vision applications	en
dc.contributor.department	Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.type	doctoralThesis
heal.classification	Μηχανική & Τεχνολογία	el
heal.classification	Επιστήμες Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού & Μηχανικού Η/Υ	el
heal.classification	Engineering & Technology	en
heal.classification	Electrical Engineering, Electronic Engineering, Information Engineering	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-12-19
heal.abstract	During the Ph.D. thesis, there was developed and proposed a perceptually inspired spatio-temporal model for video analysis and visual saliency, that was employed and and evaluated in the spatio-temporal problems of visual saliency (by predicting the fixation points in video stimuli), action recognition and video summarization. This spatio-temporal model can provide motion information in different scales and directions without having to process it as a separate cue or use a small number of video frames. In this way, the proposed approach achieves to detect both the fastest changes in the video stimuli (e.g. flicker) and the slowest motion changes related to actions or salient events recognition. Nowadays, the extensive usage of Convolutional Neural Networks (CNNs) has boosted the performance throughout the majority of tasks in computer vision, such as object detection or semantic segmentation. However, the progress of CNN architectures, design, and representation learning in the video domain is much slower, and the performance of deep learning methods remains comparable with non-deep ones. Towards this direction, this Ph.D. proposes a multi-task spatio-temporal network, that can jointly tackle the spatio-temporal problems of saliency estimation, action recognition and video summarization. The proposed approach employs a single network that is jointly end-to-end trained for all tasks with multiple and diverse datasets related to the exploring tasks. The proposed network uses a unified architecture that includes global and task specific layer and produces multiple output types, i.e., saliency maps or classification labels, by employing the same video input. From the extensive evaluation, on seven different datasets, we have observed that the multi-task network performs as well as the state-of-the-art single-task methods (or in some cases better), while it requires less computational budget than having one independent network per each task. In parallel with the proposed models for spatio-temporal representations learning, there were also investigated additional methods for tackle each one of the above spatio-temporal problems independently that outperform the existed state-of-the-art methods in many evaluation databases. For this purpose it was developed a multimodal system for salient events detection and video summarization based on visual, audio and text modalities. The system's performance was evaluated in human annotated databases, which contain both movies and documentary videos, and manage to improve the existing summarization systems. In the context of studying temporal related problems in computer vision, one important part of the Ph.D. has focused on extending and integrating computer vision algorithms in robotic applications and especially in human-robot interaction systems designed for specific groups, like elderly people and children. More specifically, there were developed methods and models for multi-view human action and gesture recognition by employing information from multiple sensors. The evaluation results in specific databases as well as with primary users have confirmed the success of the proposed system for human-robot interaction tasks both in terms of performance and user acceptability. Finally, it was proposed and developed an action and gesture recognition system for human-robot interaction applications based on neural network technology. The proposed system take advantage of the higher lever information, i.e., the pose of the human body and hands, that is extracted by processing the raw visual information using state-of-the-art deep learning based methods. The evaluation results in multiple datasets, that contain both healthy users and patients, have shown that the proposed system manages to perform high accuracy recognition while its integration in robotic platform enables real-time monitoring and recognition of human activities.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.advisorName	Maragos, Petros	en
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Κόκκινος, Ιάσονας	el
heal.committeeMemberName	Τσανάκας, Παναγιώτης	el
heal.committeeMemberName	Νίκου, Χριστόφορος	el
heal.committeeMemberName	Ζαφειρίου, Στέφανος	el
heal.committeeMemberName	Potamianos, Gerasimos	en
heal.committeeMemberName	Tzafestas, Costas	en
heal.committeeMemberName	Kokkinos, Iasonas	en
heal.committeeMemberName	Tsanakas, Panagiotis	en
heal.committeeMemberName	Nikou, Christophoros	en
heal.committeeMemberName	Zafeiriou, Stefanos	en
heal.academicPublisher	Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	192 σ.	el
heal.fullTextAvailability	false