Μοντελοποίηση οπτικής προσοχής σε δεδομένα βίντεο με ενσωμάτωση του βάθους

Διαμάντη, Ιωάννα; Diamanti, Ioanna

dc.contributor.author	Διαμάντη, Ιωάννα	el
dc.contributor.author	Diamanti, Ioanna	en
dc.date.accessioned	2022-01-27T19:36:54Z
dc.date.available	2022-01-27T19:36:54Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/54436
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.22134
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Τρισδιάστατα συνελικτικά δίκτυα	el
dc.subject	Όραση υπολογιστών	el
dc.subject	Εμφάνεια	el
dc.subject	Οπτική προσοχή	el
dc.subject	Δεδομένα βίντεο	el
dc.subject	3D convolutional networks	en
dc.subject	Computer vision	en
dc.subject	Saliency	en
dc.subject	Visual attention	en
dc.subject	Video data	en
dc.title	Μοντελοποίηση οπτικής προσοχής σε δεδομένα βίντεο με ενσωμάτωση του βάθους	el
heal.type	bachelorThesis
heal.classification	Όραση υπολογιστών	el
heal.classification	Βαθιά μάθηση	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2021-07-21
heal.abstract	Το θέμα της παρούσας Διπλωματικής Εργασίας είναι η αντιμετώπιση του προβλήματος της μοντελοποίησης της προσοχής στην φύση μέσω της πρόβλεψης της Εμφάνειας σε βίντεο. Αντίθετα με τις υπάρχουσες μεθόδους οπτικής Εμφάνειας, οι οποίες χρησιμοποιούν μόνο τις RGB ακολουθίες εικόνων των βίντεο ως είσοδο, η προτεινόμενη μέθοδος χρησιμοποιεί και το βάθος ως μία επιπλέον πληροφορία. Το υπό εξέταση πρόβλημα διαφέρει από το πρόβλημα της Αναγνώρισης Σημαντικών Αντικειμένων (Salient Object Detection), καθώς ο σκοπός είναι η πρόβλεψη της ανθρώπινης προσοχής σε βίντεο σε μία γενικότερη σκοπιά και όχι περιορισμένα σε συγκεκριμένα αντικείμενα. Το προτεινόμενο μοντέλο αποτελείται από δύο οπτικές ροές, μία για τις RGB εικόνες και μία για τις αντίστοιχες εικόνες βάθους. Και οι δύο ροές ακολουθούν μία αρχιτεκτονική Κωδικοποιητή-Αποκωδικοποιητή και συγχωνεύονται προκειμένου να προκύψει ένας ενιαίος τελικός χάρτης Εμφάνειας. Το δίκτυο εκπαιδεύεται από άκρο σε άκρο και αξιολογείται πάνω σε 9 διαφορετικά σύνολα δεδομένων παρακολούθησης ματιού, τα οποία αποτελούνται από μεγάλο εύρος περιεχομένου βίντεο. Διεξάχθηκαν εκτενή πειράματα τόσο όσον αφορά τις διαφορετικές μεθόδους που εφαρμόστηκαν για τον υπολογισμό του βάθους από τα αρχικά δεδομένα παρακολούθησης ματιού καθώς αυτά δεν περιέχουν αυτή την πληροφορία, όσο και την αλληλεπίδραση και συγχώνευση των δύο πληροφοριών (RGB και βάθους) κατά τη διαδικασία της εκπαίδευσης, προκειμένου να εξεταστεί η συνεισφορά του βάθους στο πρόβλημα της οπτικής εμφάνειας. Η προτεινόμενη μέθοδος στις περισσότερες περιπτώσεις αποδίδει καλύτερα από πολλές άλλες state-of-the-art μεθόδους όπως και από την RGB-μόνο εκδοχή του μοντέλου, κάτι το οποίο υποδεικνύει την συνεισφορά της πληροφορίας του βάθους στην αποτελεσματική εκτίμηση της Εμφάνειας σε βίντεο τα οποία έχουν προβληθεί σε μία δισδιάστατη οθόνη. Από όσο γνωρίζουμε, αυτή είναι η πρώτη ανταγωνιστική προσέγγιση βαθιάς μάθησης του προβλήματος της εκτίμησης της Εμφάνειας σε βίντεο που συνδυάζει τόσο τις RGB εικόνες όπως και το Βάθος προκειμένου να αντιμετωπίσει το γενικότερο πρόβλημα της εκτίμησης της Εμφάνειας στη φύση.	el
heal.abstract	The scope of the following thesis is to address the problem of attention modeling “in-the-wild”, via saliency prediction in videos. Contrary to existing visual saliency approaches using only RGB frames as input, the proposed method also employs depth as an additional modality. The addressed problem differs from salient object detection, because its goal is to predict human attention in videos in a more general aspect and not restricted to specific objects. The proposed model consists of two visual streams, one for the RGB frames, and one for the corresponding depth frames. Both streams follow an encoder-decoder approach and are fused to obtain a final saliency map. The network is trained end-to-end and is evaluated on 9 different databases that contain eye-tracking data and consist of a wide range of video content. Extensive experiments were carried out, regarding the different methods applied to estimate depth from the initial eye-tracking datasets, since they do not contain the information of depth, as well as regarding the interaction and fusion of the two pieces of information (RGB and depth) during the model's training procedure, in order to investigate the contribution of depth in the problem of visual saliency. The proposed method outperforms in most cases other state-of-the-art models and the RGB-only variant of the model, which indicates the contribution of depth in accurately estimating saliency in videos displayed on a 2D screen. To the best of our knowledge, this is the first competitive deep learning video saliency estimation approach that combines both RGB and Depth features to address the general problem of saliency estimation “in-the-wild”.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	105 σ.	el
heal.fullTextAvailability	false