dc.contributor.author | Διαμάντη, Ιωάννα | el |
dc.contributor.author | Diamanti, Ioanna | en |
dc.date.accessioned | 2022-01-27T19:36:54Z | |
dc.date.available | 2022-01-27T19:36:54Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/54436 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.22134 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Τρισδιάστατα συνελικτικά δίκτυα | el |
dc.subject | Όραση υπολογιστών | el |
dc.subject | Εμφάνεια | el |
dc.subject | Οπτική προσοχή | el |
dc.subject | Δεδομένα βίντεο | el |
dc.subject | 3D convolutional networks | en |
dc.subject | Computer vision | en |
dc.subject | Saliency | en |
dc.subject | Visual attention | en |
dc.subject | Video data | en |
dc.title | Μοντελοποίηση οπτικής προσοχής σε δεδομένα βίντεο με ενσωμάτωση του βάθους | el |
heal.type | bachelorThesis | |
heal.classification | Όραση υπολογιστών | el |
heal.classification | Βαθιά μάθηση | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2021-07-21 | |
heal.abstract | Το θέμα της παρούσας Διπλωματικής Εργασίας είναι η αντιμετώπιση του προβλήματος της μοντελοποίησης της προσοχής στην φύση μέσω της πρόβλεψης της Εμφάνειας σε βίντεο. Αντίθετα με τις υπάρχουσες μεθόδους οπτικής Εμφάνειας, οι οποίες χρησιμοποιούν μόνο τις RGB ακολουθίες εικόνων των βίντεο ως είσοδο, η προτεινόμενη μέθοδος χρησιμοποιεί και το βάθος ως μία επιπλέον πληροφορία. Το υπό εξέταση πρόβλημα διαφέρει από το πρόβλημα της Αναγνώρισης Σημαντικών Αντικειμένων (Salient Object Detection), καθώς ο σκοπός είναι η πρόβλεψη της ανθρώπινης προσοχής σε βίντεο σε μία γενικότερη σκοπιά και όχι περιορισμένα σε συγκεκριμένα αντικείμενα. Το προτεινόμενο μοντέλο αποτελείται από δύο οπτικές ροές, μία για τις RGB εικόνες και μία για τις αντίστοιχες εικόνες βάθους. Και οι δύο ροές ακολουθούν μία αρχιτεκτονική Κωδικοποιητή-Αποκωδικοποιητή και συγχωνεύονται προκειμένου να προκύψει ένας ενιαίος τελικός χάρτης Εμφάνειας. Το δίκτυο εκπαιδεύεται από άκρο σε άκρο και αξιολογείται πάνω σε 9 διαφορετικά σύνολα δεδομένων παρακολούθησης ματιού, τα οποία αποτελούνται από μεγάλο εύρος περιεχομένου βίντεο. Διεξάχθηκαν εκτενή πειράματα τόσο όσον αφορά τις διαφορετικές μεθόδους που εφαρμόστηκαν για τον υπολογισμό του βάθους από τα αρχικά δεδομένα παρακολούθησης ματιού καθώς αυτά δεν περιέχουν αυτή την πληροφορία, όσο και την αλληλεπίδραση και συγχώνευση των δύο πληροφοριών (RGB και βάθους) κατά τη διαδικασία της εκπαίδευσης, προκειμένου να εξεταστεί η συνεισφορά του βάθους στο πρόβλημα της οπτικής εμφάνειας. Η προτεινόμενη μέθοδος στις περισσότερες περιπτώσεις αποδίδει καλύτερα από πολλές άλλες state-of-the-art μεθόδους όπως και από την RGB-μόνο εκδοχή του μοντέλου, κάτι το οποίο υποδεικνύει την συνεισφορά της πληροφορίας του βάθους στην αποτελεσματική εκτίμηση της Εμφάνειας σε βίντεο τα οποία έχουν προβληθεί σε μία δισδιάστατη οθόνη. Από όσο γνωρίζουμε, αυτή είναι η πρώτη ανταγωνιστική προσέγγιση βαθιάς μάθησης του προβλήματος της εκτίμησης της Εμφάνειας σε βίντεο που συνδυάζει τόσο τις RGB εικόνες όπως και το Βάθος προκειμένου να αντιμετωπίσει το γενικότερο πρόβλημα της εκτίμησης της Εμφάνειας στη φύση. | el |
heal.abstract | The scope of the following thesis is to address the problem of attention modeling “in-the-wild”, via saliency prediction in videos. Contrary to existing visual saliency approaches using only RGB frames as input, the proposed method also employs depth as an additional modality. The addressed problem differs from salient object detection, because its goal is to predict human attention in videos in a more general aspect and not restricted to specific objects. The proposed model consists of two visual streams, one for the RGB frames, and one for the corresponding depth frames. Both streams follow an encoder-decoder approach and are fused to obtain a final saliency map. The network is trained end-to-end and is evaluated on 9 different databases that contain eye-tracking data and consist of a wide range of video content. Extensive experiments were carried out, regarding the different methods applied to estimate depth from the initial eye-tracking datasets, since they do not contain the information of depth, as well as regarding the interaction and fusion of the two pieces of information (RGB and depth) during the model's training procedure, in order to investigate the contribution of depth in the problem of visual saliency. The proposed method outperforms in most cases other state-of-the-art models and the RGB-only variant of the model, which indicates the contribution of depth in accurately estimating saliency in videos displayed on a 2D screen. To the best of our knowledge, this is the first competitive deep learning video saliency estimation approach that combines both RGB and Depth features to address the general problem of saliency estimation “in-the-wild”. | en |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 105 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: