Ανάλυση και επίλυση της σημασιολογικής μεροληψίας στον
εντοπισμό οπτικών σχέσεων μέσω ημι-επιβλεπόμενων
τεχνικών μάθησης

Διοματάρης, Μάρκος; Diomataris, Markos

dc.contributor.author	Διοματάρης, Μάρκος	el
dc.contributor.author	Diomataris, Markos	en
dc.date.accessioned	2020-12-19T08:37:19Z
dc.date.available	2020-12-19T08:37:19Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52619
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.20317
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Αναγνώριση οπτικών σχέσεων	el
dc.subject	Βαθιά νευρωνικά δίκτυα	el
dc.subject	Ημι-επιβλεπόμενη μάθηση	el
dc.subject	Μεροληψία	el
dc.subject	Κοινή λογική του χώρου	el
dc.subject	Visual relationship detection	en
dc.subject	Deep neural networks	en
dc.subject	Semi-supervised Learning	en
dc.subject	Bias	en
dc.subject	Spatial common sense	en
dc.title	Ανάλυση και επίλυση της σημασιολογικής μεροληψίας στον εντοπισμό οπτικών σχέσεων μέσω ημι-επιβλεπόμενων τεχνικών μάθησης	el
dc.title	Analyzing and solving context bias in visual relationship detection using semi-supervised techniques	en
dc.contributor.department	Computer Vision and Signal Processing	en
heal.type	bachelorThesis
heal.classification	Computer Vision	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-11-03
heal.abstract	Το πρόβλημα αναγνώρισης οπτικών σχέσεων (visual relationship detection) της όρασης υπολογιστών αφορά τη εξαγωγή κατευθυνόμενων γράφων ως αναπαράσταση των σχέσεων (ακμές) μεταξύ των αντικειμένων (κόμβοι) σε μία εικόνα. Παρατηρώντας τη συμπεριφορά των σύγχρονων μοντέλων της βιβλιογραφίας στα μη επισημειωμένα δείγματα αποκαλύπτεται πως υπάρχουν πολλές περιπτώσεις όπου το περιεχόμενο της εικόνας αγνοείται πλήρως και χρησιμοποιείται μόνο η σημασιολογική πληροφορία των αντικειμένων για την πρόβλεψη των σχέσεων. Ονομάζουμε αυτό το πρόβλημα context bias και από όσο γνωρίζουμε είμαστε οι πρώτοι που το εντοπίζουν. Η συνεισφορά αυτής της διπλωματικής αφορά τόσο την ανάλυση και πρόταση μεθόδων επίλυσης του context bias, όσο και την εισαγωγή νέων μετρικών οι οποίες, σε αντίθεση με τις υιοθετούμενες, είναι ικανές να το αναδείξουν. Συγκεκριμένα: • Εισάγουμε το πείραμα του κυλιόμενου κουτιού (sliding box experiment) με το οποίο διερευνούμε ποιοτικά την επίδραση του context bias στα μοντέλα. • Δημιουργούμε μία μέθοδο εντοπισμού κλάσεων που προκαλούν context bias μετρώντας την εντροπία της κατανομής τους στο σύνολο δεδομένων (entropy ranking). • Παρουσιάζουμε ένα σύνολο κανόνων εξόρυξης αρνητικών μη επισημειωμένων δειγμάτων που ονομάζουμε αρνητική συμπλήρωση γράφου (Negative Graph Completion ή NGC). • Η ανάλυσή μας, μας επιτρέπει να σχεδιάσουμε τις εξής τρεις μεθόδους επίλυσης του context bias: – Αρνητικής Εντροπίας (NCE): συνάρτηση κόστους αρνητικής εντροπίας που εφαρμόζεται στα αρνητικά δείγματα που παράγονται από την NGC. – Κατάταξης Αρνητικότητας (NR): αντικατάσταση της NGC με ένα δίκτυο που μαθαίνει να αξιολογεί την αρνητικότητα δειγμάτων προκαθορισμένων κλάσεων. – Συνέπειας Grounding (GCL): χρησιμοποιώντας το αντίστροφο πρόβλημα της πρόβλεψης οπτικών σχέσεων (grounding) επιβάλουμε συνέπεια ανάμεσα στην πρόβλεψη σχέσεων και την επαναπροβολή τους πίσω στην εικόνα μέσω του grounding με πλήρως ημι-επιβλεπόμενο τρόπο. • Εισάγουμε δύο παραλλαγές μέτρησης του Precision που, χρησιμοποιώντας τα αρνητικά δείγματα που παράγονται από την NGC, είναι ικανές να αναδείξουν το πρόβλημα του context bias. • Πραγματοποιούμε τόσο ποσοτική όσο και ποιοτική σύγκριση μεταξύ των μεθόδων που προτείνουμε αλλά και με τη σχετική βιβλιογραφία στα VRD και VG200, τα δύο δημοφιλέστερα σύνολα δεδομένων του προβλήματος όπου πετυχαίνουμε 42.2% και 54% μέγιστη σχετική βελτίωση αντίστοιχα. ΄Ολα τα παραπάνω αναδεικνύουν την ανάγκη χρήσης ημι-επιβλεπόμενων μεθόδων καθώς και επαναπροσδιορίζουν την μετρική του Precision ως μία αναπόσπαστη πτυχή του προβλήματος ανίχνευσης οπτικών σχέσεων, συμβάλλοντας έτσι στην περαιτέρω εμβάθυνση της μέχρι τώρα κατανόησής του. Μεγάλο μέρος των συνεισφορών υποβλήθηκαν στο Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) με συγγραφείς τους Μάρκος Διοματάρης, Νικόλαος Γκανάτσιος, Βασίλης Πιτσικάλης και Πέτρος Μαραγκός.	el
heal.abstract	Visual relationship detection is a task of computer vision that concerns extracting directed graphs as a representation of relationships (edges) between entities (nodes) in an image. Performing inference with state of the art models on unlabeled samples reveals plenty of cases where the image is completely neglected and predictions are based solely on the semantic information of the entities. We name this problem context bias and to our knowledge we are the first to discover it. This thesis contributes not only to analyzing and solving context bias but also introducing new metrics which, in contrast to the most adopted ones, are able to reflect it. Specifically we: • Introduce the sliding box experiment to qualitatively investigate the effect of context bias on models. • Create a method that detects classes which generate context bias by measuring their sample distribution entropy called entropy ranking. • Present a set of rules for mining negative samples that we call Negative Graph Completion (NGC). • Our analysis enables us to design the three following methods for solving context bias: – Negative Cross Entropy (NCE): apply a negative cross entropy cost function on negative samples generated from NGC. – Negativity Ranking (NR): replace NGC with a network trained to assess the negativity of samples for a set of prespecified classes. – Grounding Consistency Loss (GCL): by using the inverse problem of visual relationship detection (grounding) we impose consistency between the predicted relation and its back-projection to the image through grounding in a fully semi-supervised manner. • Introduce two Precision variations that, by using NGC’s generated negative samples, are able to reflect the problem of context bias. • Perform extensive quantitative and qualitative comparisons between our proposed methods and the relative literature on VRD and VG200, the two most popular datasets of the task, where we achieve 42.2% and 54% maximum relative improvement respectively. All the aforementioned highlight the effectiveness of adopting semi-supervised solutions as well as redefine Precision as a core aspect of visual relationship detection taking a step towards improving our understanding of the task. A big portion of our contributions was submitted to the Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) with the authors being Markos Diomataris, Nikolaos Gkanatsios, Vassilis Pitsikalis and Petros Maragos.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.advisorName	Maragos, Petros	en
heal.committeeMemberName	Τζαφέστας, Κωνσταντίνος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.committeeMemberName	Μαραγκός, Πέτρος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	71 σ.	el
heal.fullTextAvailability	false