HEAL DSpace

Μοντελοποίηση οπτικής προσοχής σε δεδομένα βίντεο με ενσωμάτωση του βάθους

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Διαμάντη, Ιωάννα el
dc.contributor.author Diamanti, Ioanna en
dc.date.accessioned 2022-01-27T19:36:54Z
dc.date.available 2022-01-27T19:36:54Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54436
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22134
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Τρισδιάστατα συνελικτικά δίκτυα el
dc.subject Όραση υπολογιστών el
dc.subject Εμφάνεια el
dc.subject Οπτική προσοχή el
dc.subject Δεδομένα βίντεο el
dc.subject 3D convolutional networks en
dc.subject Computer vision en
dc.subject Saliency en
dc.subject Visual attention en
dc.subject Video data en
dc.title Μοντελοποίηση οπτικής προσοχής σε δεδομένα βίντεο με ενσωμάτωση του βάθους el
heal.type bachelorThesis
heal.classification Όραση υπολογιστών el
heal.classification Βαθιά μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-07-21
heal.abstract Το θέμα της παρούσας Διπλωματικής Εργασίας είναι η αντιμετώπιση του προβλήματος της μοντελοποίησης της προσοχής στην φύση μέσω της πρόβλεψης της Εμφάνειας σε βίντεο. Αντίθετα με τις υπάρχουσες μεθόδους οπτικής Εμφάνειας, οι οποίες χρησιμοποιούν μόνο τις RGB ακολουθίες εικόνων των βίντεο ως είσοδο, η προτεινόμενη μέθοδος χρησιμοποιεί και το βάθος ως μία επιπλέον πληροφορία. Το υπό εξέταση πρόβλημα διαφέρει από το πρόβλημα της Αναγνώρισης Σημαντικών Αντικειμένων (Salient Object Detection), καθώς ο σκοπός είναι η πρόβλεψη της ανθρώπινης προσοχής σε βίντεο σε μία γενικότερη σκοπιά και όχι περιορισμένα σε συγκεκριμένα αντικείμενα. Το προτεινόμενο μοντέλο αποτελείται από δύο οπτικές ροές, μία για τις RGB εικόνες και μία για τις αντίστοιχες εικόνες βάθους. Και οι δύο ροές ακολουθούν μία αρχιτεκτονική Κωδικοποιητή-Αποκωδικοποιητή και συγχωνεύονται προκειμένου να προκύψει ένας ενιαίος τελικός χάρτης Εμφάνειας. Το δίκτυο εκπαιδεύεται από άκρο σε άκρο και αξιολογείται πάνω σε 9 διαφορετικά σύνολα δεδομένων παρακολούθησης ματιού, τα οποία αποτελούνται από μεγάλο εύρος περιεχομένου βίντεο. Διεξάχθηκαν εκτενή πειράματα τόσο όσον αφορά τις διαφορετικές μεθόδους που εφαρμόστηκαν για τον υπολογισμό του βάθους από τα αρχικά δεδομένα παρακολούθησης ματιού καθώς αυτά δεν περιέχουν αυτή την πληροφορία, όσο και την αλληλεπίδραση και συγχώνευση των δύο πληροφοριών (RGB και βάθους) κατά τη διαδικασία της εκπαίδευσης, προκειμένου να εξεταστεί η συνεισφορά του βάθους στο πρόβλημα της οπτικής εμφάνειας. Η προτεινόμενη μέθοδος στις περισσότερες περιπτώσεις αποδίδει καλύτερα από πολλές άλλες state-of-the-art μεθόδους όπως και από την RGB-μόνο εκδοχή του μοντέλου, κάτι το οποίο υποδεικνύει την συνεισφορά της πληροφορίας του βάθους στην αποτελεσματική εκτίμηση της Εμφάνειας σε βίντεο τα οποία έχουν προβληθεί σε μία δισδιάστατη οθόνη. Από όσο γνωρίζουμε, αυτή είναι η πρώτη ανταγωνιστική προσέγγιση βαθιάς μάθησης του προβλήματος της εκτίμησης της Εμφάνειας σε βίντεο που συνδυάζει τόσο τις RGB εικόνες όπως και το Βάθος προκειμένου να αντιμετωπίσει το γενικότερο πρόβλημα της εκτίμησης της Εμφάνειας στη φύση. el
heal.abstract The scope of the following thesis is to address the problem of attention modeling “in-the-wild”, via saliency prediction in videos. Contrary to existing visual saliency approaches using only RGB frames as input, the proposed method also employs depth as an additional modality. The addressed problem differs from salient object detection, because its goal is to predict human attention in videos in a more general aspect and not restricted to specific objects. The proposed model consists of two visual streams, one for the RGB frames, and one for the corresponding depth frames. Both streams follow an encoder-decoder approach and are fused to obtain a final saliency map. The network is trained end-to-end and is evaluated on 9 different databases that contain eye-tracking data and consist of a wide range of video content. Extensive experiments were carried out, regarding the different methods applied to estimate depth from the initial eye-tracking datasets, since they do not contain the information of depth, as well as regarding the interaction and fusion of the two pieces of information (RGB and depth) during the model's training procedure, in order to investigate the contribution of depth in the problem of visual saliency. The proposed method outperforms in most cases other state-of-the-art models and the RGB-only variant of the model, which indicates the contribution of depth in accurately estimating saliency in videos displayed on a 2D screen. To the best of our knowledge, this is the first competitive deep learning video saliency estimation approach that combines both RGB and Depth features to address the general problem of saliency estimation “in-the-wild”. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 105 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα