HEAL DSpace

Ανάλυση και επίλυση της σημασιολογικής μεροληψίας στον εντοπισμό οπτικών σχέσεων μέσω ημι-επιβλεπόμενων τεχνικών μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Διοματάρης, Μάρκος el
dc.contributor.author Diomataris, Markos en
dc.date.accessioned 2020-12-19T08:37:19Z
dc.date.available 2020-12-19T08:37:19Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52619
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.20317
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αναγνώριση οπτικών σχέσεων el
dc.subject Βαθιά νευρωνικά δίκτυα el
dc.subject Ημι-επιβλεπόμενη μάθηση el
dc.subject Μεροληψία el
dc.subject Κοινή λογική του χώρου el
dc.subject Visual relationship detection en
dc.subject Deep neural networks en
dc.subject Semi-supervised Learning en
dc.subject Bias en
dc.subject Spatial common sense en
dc.title Ανάλυση και επίλυση της σημασιολογικής μεροληψίας στον εντοπισμό οπτικών σχέσεων μέσω ημι-επιβλεπόμενων τεχνικών μάθησης el
dc.title Analyzing and solving context bias in visual relationship detection using semi-supervised techniques en
dc.contributor.department Computer Vision and Signal Processing en
heal.type bachelorThesis
heal.classification Computer Vision el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-11-03
heal.abstract Το πρόβλημα αναγνώρισης οπτικών σχέσεων (visual relationship detection) της όρασης υπολογιστών αφορά τη εξαγωγή κατευθυνόμενων γράφων ως αναπαράσταση των σχέσεων (ακμές) μεταξύ των αντικειμένων (κόμβοι) σε μία εικόνα. Παρατηρώντας τη συμπεριφορά των σύγχρονων μοντέλων της βιβλιογραφίας στα μη επισημειωμένα δείγματα αποκαλύπτεται πως υπάρχουν πολλές περιπτώσεις όπου το περιεχόμενο της εικόνας αγνοείται πλήρως και χρησιμοποιείται μόνο η σημασιολογική πληροφορία των αντικειμένων για την πρόβλεψη των σχέσεων. Ονομάζουμε αυτό το πρόβλημα context bias και από όσο γνωρίζουμε είμαστε οι πρώτοι που το εντοπίζουν. Η συνεισφορά αυτής της διπλωματικής αφορά τόσο την ανάλυση και πρόταση μεθόδων επίλυσης του context bias, όσο και την εισαγωγή νέων μετρικών οι οποίες, σε αντίθεση με τις υιοθετούμενες, είναι ικανές να το αναδείξουν. Συγκεκριμένα: • Εισάγουμε το πείραμα του κυλιόμενου κουτιού (sliding box experiment) με το οποίο διερευνούμε ποιοτικά την επίδραση του context bias στα μοντέλα. • Δημιουργούμε μία μέθοδο εντοπισμού κλάσεων που προκαλούν context bias μετρώντας την εντροπία της κατανομής τους στο σύνολο δεδομένων (entropy ranking). • Παρουσιάζουμε ένα σύνολο κανόνων εξόρυξης αρνητικών μη επισημειωμένων δειγμάτων που ονομάζουμε αρνητική συμπλήρωση γράφου (Negative Graph Completion ή NGC). • Η ανάλυσή μας, μας επιτρέπει να σχεδιάσουμε τις εξής τρεις μεθόδους επίλυσης του context bias: – Αρνητικής Εντροπίας (NCE): συνάρτηση κόστους αρνητικής εντροπίας που εφαρμόζεται στα αρνητικά δείγματα που παράγονται από την NGC. – Κατάταξης Αρνητικότητας (NR): αντικατάσταση της NGC με ένα δίκτυο που μαθαίνει να αξιολογεί την αρνητικότητα δειγμάτων προκαθορισμένων κλάσεων. – Συνέπειας Grounding (GCL): χρησιμοποιώντας το αντίστροφο πρόβλημα της πρόβλεψης οπτικών σχέσεων (grounding) επιβάλουμε συνέπεια ανάμεσα στην πρόβλεψη σχέσεων και την επαναπροβολή τους πίσω στην εικόνα μέσω του grounding με πλήρως ημι-επιβλεπόμενο τρόπο. • Εισάγουμε δύο παραλλαγές μέτρησης του Precision που, χρησιμοποιώντας τα αρνητικά δείγματα που παράγονται από την NGC, είναι ικανές να αναδείξουν το πρόβλημα του context bias. • Πραγματοποιούμε τόσο ποσοτική όσο και ποιοτική σύγκριση μεταξύ των μεθόδων που προτείνουμε αλλά και με τη σχετική βιβλιογραφία στα VRD και VG200, τα δύο δημοφιλέστερα σύνολα δεδομένων του προβλήματος όπου πετυχαίνουμε 42.2% και 54% μέγιστη σχετική βελτίωση αντίστοιχα. ΄Ολα τα παραπάνω αναδεικνύουν την ανάγκη χρήσης ημι-επιβλεπόμενων μεθόδων καθώς και επαναπροσδιορίζουν την μετρική του Precision ως μία αναπόσπαστη πτυχή του προβλήματος ανίχνευσης οπτικών σχέσεων, συμβάλλοντας έτσι στην περαιτέρω εμβάθυνση της μέχρι τώρα κατανόησής του. Μεγάλο μέρος των συνεισφορών υποβλήθηκαν στο Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) με συγγραφείς τους Μάρκος Διοματάρης, Νικόλαος Γκανάτσιος, Βασίλης Πιτσικάλης και Πέτρος Μαραγκός. el
heal.abstract Visual relationship detection is a task of computer vision that concerns extracting directed graphs as a representation of relationships (edges) between entities (nodes) in an image. Performing inference with state of the art models on unlabeled samples reveals plenty of cases where the image is completely neglected and predictions are based solely on the semantic information of the entities. We name this problem context bias and to our knowledge we are the first to discover it. This thesis contributes not only to analyzing and solving context bias but also introducing new metrics which, in contrast to the most adopted ones, are able to reflect it. Specifically we: • Introduce the sliding box experiment to qualitatively investigate the effect of context bias on models. • Create a method that detects classes which generate context bias by measuring their sample distribution entropy called entropy ranking. • Present a set of rules for mining negative samples that we call Negative Graph Completion (NGC). • Our analysis enables us to design the three following methods for solving context bias: – Negative Cross Entropy (NCE): apply a negative cross entropy cost function on negative samples generated from NGC. – Negativity Ranking (NR): replace NGC with a network trained to assess the negativity of samples for a set of prespecified classes. – Grounding Consistency Loss (GCL): by using the inverse problem of visual relationship detection (grounding) we impose consistency between the predicted relation and its back-projection to the image through grounding in a fully semi-supervised manner. • Introduce two Precision variations that, by using NGC’s generated negative samples, are able to reflect the problem of context bias. • Perform extensive quantitative and qualitative comparisons between our proposed methods and the relative literature on VRD and VG200, the two most popular datasets of the task, where we achieve 42.2% and 54% maximum relative improvement respectively. All the aforementioned highlight the effectiveness of adopting semi-supervised solutions as well as redefine Precision as a core aspect of visual relationship detection taking a step towards improving our understanding of the task. A big portion of our contributions was submitted to the Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) with the authors being Markos Diomataris, Nikolaos Gkanatsios, Vassilis Pitsikalis and Petros Maragos. en
heal.advisorName Μαραγκός, Πέτρος el
heal.advisorName Maragos, Petros en
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 71 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα