HEAL DSpace

Εκμάθηση χωροχρονικών αναπαραστάσεων και μοντελοποίηση οπτικής προσοχής σε προβλήματα όρασης υπολογιστών

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κούτρας, Πέτρος Ν. el
dc.contributor.author Koutras, Petros en
dc.date.accessioned 2020-11-30T17:57:29Z
dc.date.available 2020-11-30T17:57:29Z
dc.date.created 2020-11-30
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52102
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.19800
dc.description.abstract Στα πλαίσια της διδακτορικής διατριβής αρχικά αναπτύχθηκε και προτάθηκε ένα χωροχρονικό μοντέλο για την ανάλυση βίντεο και την οπτική προσοχή εμπνευσμένο από την ανθρώπινη αντίληψη, το οποίο χρησιμοποιήθηκε και αξιολογήθηκε στα χωροχρονικά προβλήματα της οπτικής προσοχής (μέσω της πρόβλεψης των σημείων εστίασης των ματιών), της αναγνώρισης δράσεων αλλά και της δημιουργίας περιλήψεων από βίντεο. Το χωροχρονικό αυτό μοντέλο μπορεί να παρέχει πληροφορία σχετικά με την κίνηση σε διαφορετικές κλίμακες και κατευθύνσεις χωρίς να χρειάζεται να την επεξεργαστεί σαν μια ξεχωριστή ροή πληροφορίας υπολογισμένη από έναν μικρό αριθμό καρέ του βίντεο. Με αυτό τον τρόπο η προσέγγιση αυτή επιτυγχάνει να εντοπίζει τόσο τις πολύ γρήγορες αλλαγές του βίντεο όσο και τις πιο αργές αλλαγές στην κίνηση που σχετίζονται με την αναγνώριση δράσεων ή προεξεχόντων γεγονότων. Πρόσφατα, η ευρεία χρήση τεχνικών βαθιάς μάθησης, όπως τα συνελικτικά νευρωνικά δίκτυα (Convolutional Neural Networks - CNNs), έχει ενισχύσει σημαντικά την απόδοση στην πλειοψηφία των στατικών προβλημάτων της όρασης υπολογιστών, όπως ο εντοπισμός αντικειμένων ή η σημασιολογική κατάτμηση. Αντίθετα η έρευνα σχετικά με τη σχεδίαση και εκμάθηση αναπαραστάσεων για τα προβλήματα της όρασης υπολογιστών που σχετίζονται με το χρόνο, είναι αρκετά μικρότερη και η απόδοση των δυναμικών μεθόδων και αλγορίθμων παραμένει σε αρκετές περιπτώσεις συγκρίσιμη με την εφαρμογή των στατικών προσεγγίσεων μεμονωμένα σε κάθε καρέ του βίντεο. Για το σκοπό αυτό προτάθηκε ένα χωροχρονικό βαθύ νευρωνικό δίκτυο πολλαπλών εργασιών, το οποίο μπορεί να αντιμετωπίσει από κοινού τα χωροχρονικά προβλήματα της εκτίμησης της προσοχής, της αναγνώρισης δράσεων και της δημιουργίας περιλήψεων από βίντεο. Η προτεινόμενη προσέγγιση χρησιμοποιεί ένα ενιαίο βαθύ νευρωνικό δίκτυο που εκπαιδεύεται ενιαία και από κοινού για όλες τις εργασίες με τη χρήση πολλαπλών και διαφορετικών βάσεων δεδομένων που σχετίζονται με τις εργασίες που εξετάζονται. Το προτεινόμενο δίκτυο χρησιμοποιεί μια ενοποιημένη αρχιτεκτονική που περιλαμβάνει επίπεδα γενικού σκοπού αλλά και επίπεδα που σχετίζονται με μια συγκεκριμένη εργασία και παράγει εξόδους πολλαπλών τύπων, δηλαδή χάρτες προσοχής ή ετικέτες ταξινόμησης, χρησιμοποιώντας σαν είσοδο το ίδιο βίντεο. Από την εκτεταμένη αξιολόγηση, σε επτά διαφορετικές βάσεις δεδομένων, παρατηρούμε ότι το δίκτυο πολλαπλών εργασιών αποδίδει το ίδιο καλά (ή σε ορισμένες περιπτώσεις καλύτερα) με τις τελευταίες (state-of-the-art) μεθόδους που σχεδιάστηκαν για μια μόνο εργασία, ενώ απαιτεί λιγότερους υπολογιστικούς πόρους σε αντίθεση με το έχουμε ένα ανεξάρτητο δίκτυο ανά κάθε μια εργασία. Παράλληλα με τα προτεινόμενα μοντέλα εκμάθησης χωροχρονικών αναπαραστάσεων, διερευνήθηκαν και προτάθηκαν επιπρόσθετες μέθοδοι για την επίλυση καθενός από τα παραπάνω χωροχρονικά προβλήματα οι οποίες ξεπέρασαν σε απόδοση τις τότε υπάρχουσες μεθόδους της βιβλιογραφίας σε αρκετές βάσεις αξιολόγησης. Για το σκοπό αυτό, αναπτύχθηκε ένα πολυτροπικό σύστημα ανίχνευσης προεξεχόντων γεγονότων και δημιουργίας περιλήψεων βασισμένο στις τροπικότητες εικόνας, ήχου και κειμένου. Η απόδοση του συστήματος αξιολογήθηκε με βάση επισημειώσεις χρηστών σε βίντεο ταινιών και ντοκιμαντέρ και κατόρθωσε να βελτιώσει σημαντικά τα υπάρχοντα συστήματα δημιουργίας περιλήψεων. Στα πλαίσια μελέτης των προβλημάτων που σχετίζονται με το χρόνο, έγινε επέκταση και ενσωμάτωση μεθόδων της όρασης υπολογιστών σε προβλήματα της ρομποτικής και ιδιαίτερα σε εφαρμογές που σχετίζονται με την επικοινωνία και αλληλεπίδραση των ρομπότ με ειδικές ηλικιακές ομάδες και συγκεκριμένα με ηλικιωμένους και παιδιά. Πιο συγκεκριμένα αναπτύχθηκαν μέθοδοι και μοντέλα αναγνώρισης ανθρώπινων δράσεων και χειρονομιών αξιοποιώντας την πληροφορία από πολλαπλές κάμερες. Τα αποτελέσματα τόσο σε βάσεις δεδομένων όσο και με πραγματικούς χρήστες αναδεικνύουν την αποτελεσματικότητα και καταλληλότητα των μεθόδων στα προβλήματα επικοινωνίας ανθρώπου-ρομπότ. Τέλος, προτάθηκε και υλοποιήθηκε ένα σύστημα αναγνώρισης δράσεων και χειρονομιών για προβλήματα αλληλεπίδρασης ανθρώπου-ρομπότ βασισμένο στην τεχνολογία των νευρωνικών δικτύων. Το προτεινόμενο σύστημα αξιοποιεί την πληροφορία υψηλού επιπέδου, όπως η πόζα του σώματος και των χεριών, που προκύπτει από την επεξεργασία της αρχικής οπτικής πληροφορίας από state-of-the-art μεθόδους βαθιάς εκμάθησης. Τα πειραματικά αποτελέσματα σε πολλαπλές βάσεις, τόσο με υγιείς χρήστες όσο και με ασθενείς, έδειξαν ότι το προτεινόμενο σύστημα μπορεί να επιτύχει αρκετά υψηλά επίπεδα αναγνώρισης ενώ η ενσωμάτωση του σε ρομποτικές πλατφόρμες δίνει τη δυνατότητα παρακολούθησης και αναγνώρισης των ανθρώπινων δραστηριοτήτων σε πραγματικό χρόνο. el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Όραση υπολογιστών el
dc.subject Μηχανική μάθηση el
dc.subject Χωροχρονικές αναπαραστάσεις el
dc.subject Οπτική προσοχή el
dc.subject Αναγνώριση δράσεων el
dc.subject Δημιουργία περιλήψεων el
dc.subject Νευρωνικά δίκτυα el
dc.subject Αλληλεπίδραση ανθρώπου-ρομπότ el
dc.subject Computer vision en
dc.subject Machine learning en
dc.subject Spatio-temporal representations en
dc.subject Visual attention en
dc.subject Action recognition en
dc.subject Summarization en
dc.subject Neural networks en
dc.subject Human-robot interaction en
dc.title Εκμάθηση χωροχρονικών αναπαραστάσεων και μοντελοποίηση οπτικής προσοχής σε προβλήματα όρασης υπολογιστών el
dc.title.alternative Spatio-temporal representations learning and visual attention modeling in computer vision applications en
dc.contributor.department Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.type doctoralThesis
heal.classification Μηχανική & Τεχνολογία el
heal.classification Επιστήμες Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού & Μηχανικού Η/Υ el
heal.classification Engineering & Technology en
heal.classification Electrical Engineering, Electronic Engineering, Information Engineering en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-12-19
heal.abstract During the Ph.D. thesis, there was developed and proposed a perceptually inspired spatio-temporal model for video analysis and visual saliency, that was employed and and evaluated in the spatio-temporal problems of visual saliency (by predicting the fixation points in video stimuli), action recognition and video summarization. This spatio-temporal model can provide motion information in different scales and directions without having to process it as a separate cue or use a small number of video frames. In this way, the proposed approach achieves to detect both the fastest changes in the video stimuli (e.g. flicker) and the slowest motion changes related to actions or salient events recognition. Nowadays, the extensive usage of Convolutional Neural Networks (CNNs) has boosted the performance throughout the majority of tasks in computer vision, such as object detection or semantic segmentation. However, the progress of CNN architectures, design, and representation learning in the video domain is much slower, and the performance of deep learning methods remains comparable with non-deep ones. Towards this direction, this Ph.D. proposes a multi-task spatio-temporal network, that can jointly tackle the spatio-temporal problems of saliency estimation, action recognition and video summarization. The proposed approach employs a single network that is jointly end-to-end trained for all tasks with multiple and diverse datasets related to the exploring tasks. The proposed network uses a unified architecture that includes global and task specific layer and produces multiple output types, i.e., saliency maps or classification labels, by employing the same video input. From the extensive evaluation, on seven different datasets, we have observed that the multi-task network performs as well as the state-of-the-art single-task methods (or in some cases better), while it requires less computational budget than having one independent network per each task. In parallel with the proposed models for spatio-temporal representations learning, there were also investigated additional methods for tackle each one of the above spatio-temporal problems independently that outperform the existed state-of-the-art methods in many evaluation databases. For this purpose it was developed a multimodal system for salient events detection and video summarization based on visual, audio and text modalities. The system's performance was evaluated in human annotated databases, which contain both movies and documentary videos, and manage to improve the existing summarization systems. In the context of studying temporal related problems in computer vision, one important part of the Ph.D. has focused on extending and integrating computer vision algorithms in robotic applications and especially in human-robot interaction systems designed for specific groups, like elderly people and children. More specifically, there were developed methods and models for multi-view human action and gesture recognition by employing information from multiple sensors. The evaluation results in specific databases as well as with primary users have confirmed the success of the proposed system for human-robot interaction tasks both in terms of performance and user acceptability. Finally, it was proposed and developed an action and gesture recognition system for human-robot interaction applications based on neural network technology. The proposed system take advantage of the higher lever information, i.e., the pose of the human body and hands, that is extracted by processing the raw visual information using state-of-the-art deep learning based methods. The evaluation results in multiple datasets, that contain both healthy users and patients, have shown that the proposed system manages to perform high accuracy recognition while its integration in robotic platform enables real-time monitoring and recognition of human activities. en
heal.advisorName Μαραγκός, Πέτρος el
heal.advisorName Maragos, Petros en
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Κόκκινος, Ιάσονας el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Νίκου, Χριστόφορος el
heal.committeeMemberName Ζαφειρίου, Στέφανος el
heal.committeeMemberName Potamianos, Gerasimos en
heal.committeeMemberName Tzafestas, Costas en
heal.committeeMemberName Kokkinos, Iasonas en
heal.committeeMemberName Tsanakas, Panagiotis en
heal.committeeMemberName Nikou, Christophoros en
heal.committeeMemberName Zafeiriou, Stefanos en
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 192 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα