dc.contributor.author | Διοματάρης, Μάρκος | el |
dc.contributor.author | Diomataris, Markos | en |
dc.date.accessioned | 2020-12-19T08:37:19Z | |
dc.date.available | 2020-12-19T08:37:19Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/52619 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.20317 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Αναγνώριση οπτικών σχέσεων | el |
dc.subject | Βαθιά νευρωνικά δίκτυα | el |
dc.subject | Ημι-επιβλεπόμενη μάθηση | el |
dc.subject | Μεροληψία | el |
dc.subject | Κοινή λογική του χώρου | el |
dc.subject | Visual relationship detection | en |
dc.subject | Deep neural networks | en |
dc.subject | Semi-supervised Learning | en |
dc.subject | Bias | en |
dc.subject | Spatial common sense | en |
dc.title | Ανάλυση και επίλυση της σημασιολογικής μεροληψίας στον εντοπισμό οπτικών σχέσεων μέσω ημι-επιβλεπόμενων τεχνικών μάθησης | el |
dc.title | Analyzing and solving context bias in visual relationship detection using semi-supervised techniques | en |
dc.contributor.department | Computer Vision and Signal Processing | en |
heal.type | bachelorThesis | |
heal.classification | Computer Vision | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2020-11-03 | |
heal.abstract | Το πρόβλημα αναγνώρισης οπτικών σχέσεων (visual relationship detection) της όρασης υπολογιστών αφορά τη εξαγωγή κατευθυνόμενων γράφων ως αναπαράσταση των σχέσεων (ακμές) μεταξύ των αντικειμένων (κόμβοι) σε μία εικόνα. Παρατηρώντας τη συμπεριφορά των σύγχρονων μοντέλων της βιβλιογραφίας στα μη επισημειωμένα δείγματα αποκαλύπτεται πως υπάρχουν πολλές περιπτώσεις όπου το περιεχόμενο της εικόνας αγνοείται πλήρως και χρησιμοποιείται μόνο η σημασιολογική πληροφορία των αντικειμένων για την πρόβλεψη των σχέσεων. Ονομάζουμε αυτό το πρόβλημα context bias και από όσο γνωρίζουμε είμαστε οι πρώτοι που το εντοπίζουν. Η συνεισφορά αυτής της διπλωματικής αφορά τόσο την ανάλυση και πρόταση μεθόδων επίλυσης του context bias, όσο και την εισαγωγή νέων μετρικών οι οποίες, σε αντίθεση με τις υιοθετούμενες, είναι ικανές να το αναδείξουν. Συγκεκριμένα: • Εισάγουμε το πείραμα του κυλιόμενου κουτιού (sliding box experiment) με το οποίο διερευνούμε ποιοτικά την επίδραση του context bias στα μοντέλα. • Δημιουργούμε μία μέθοδο εντοπισμού κλάσεων που προκαλούν context bias μετρώντας την εντροπία της κατανομής τους στο σύνολο δεδομένων (entropy ranking). • Παρουσιάζουμε ένα σύνολο κανόνων εξόρυξης αρνητικών μη επισημειωμένων δειγμάτων που ονομάζουμε αρνητική συμπλήρωση γράφου (Negative Graph Completion ή NGC). • Η ανάλυσή μας, μας επιτρέπει να σχεδιάσουμε τις εξής τρεις μεθόδους επίλυσης του context bias: – Αρνητικής Εντροπίας (NCE): συνάρτηση κόστους αρνητικής εντροπίας που εφαρμόζεται στα αρνητικά δείγματα που παράγονται από την NGC. – Κατάταξης Αρνητικότητας (NR): αντικατάσταση της NGC με ένα δίκτυο που μαθαίνει να αξιολογεί την αρνητικότητα δειγμάτων προκαθορισμένων κλάσεων. – Συνέπειας Grounding (GCL): χρησιμοποιώντας το αντίστροφο πρόβλημα της πρόβλεψης οπτικών σχέσεων (grounding) επιβάλουμε συνέπεια ανάμεσα στην πρόβλεψη σχέσεων και την επαναπροβολή τους πίσω στην εικόνα μέσω του grounding με πλήρως ημι-επιβλεπόμενο τρόπο. • Εισάγουμε δύο παραλλαγές μέτρησης του Precision που, χρησιμοποιώντας τα αρνητικά δείγματα που παράγονται από την NGC, είναι ικανές να αναδείξουν το πρόβλημα του context bias. • Πραγματοποιούμε τόσο ποσοτική όσο και ποιοτική σύγκριση μεταξύ των μεθόδων που προτείνουμε αλλά και με τη σχετική βιβλιογραφία στα VRD και VG200, τα δύο δημοφιλέστερα σύνολα δεδομένων του προβλήματος όπου πετυχαίνουμε 42.2% και 54% μέγιστη σχετική βελτίωση αντίστοιχα. ΄Ολα τα παραπάνω αναδεικνύουν την ανάγκη χρήσης ημι-επιβλεπόμενων μεθόδων καθώς και επαναπροσδιορίζουν την μετρική του Precision ως μία αναπόσπαστη πτυχή του προβλήματος ανίχνευσης οπτικών σχέσεων, συμβάλλοντας έτσι στην περαιτέρω εμβάθυνση της μέχρι τώρα κατανόησής του. Μεγάλο μέρος των συνεισφορών υποβλήθηκαν στο Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) με συγγραφείς τους Μάρκος Διοματάρης, Νικόλαος Γκανάτσιος, Βασίλης Πιτσικάλης και Πέτρος Μαραγκός. | el |
heal.abstract | Visual relationship detection is a task of computer vision that concerns extracting directed graphs as a representation of relationships (edges) between entities (nodes) in an image. Performing inference with state of the art models on unlabeled samples reveals plenty of cases where the image is completely neglected and predictions are based solely on the semantic information of the entities. We name this problem context bias and to our knowledge we are the first to discover it. This thesis contributes not only to analyzing and solving context bias but also introducing new metrics which, in contrast to the most adopted ones, are able to reflect it. Specifically we: • Introduce the sliding box experiment to qualitatively investigate the effect of context bias on models. • Create a method that detects classes which generate context bias by measuring their sample distribution entropy called entropy ranking. • Present a set of rules for mining negative samples that we call Negative Graph Completion (NGC). • Our analysis enables us to design the three following methods for solving context bias: – Negative Cross Entropy (NCE): apply a negative cross entropy cost function on negative samples generated from NGC. – Negativity Ranking (NR): replace NGC with a network trained to assess the negativity of samples for a set of prespecified classes. – Grounding Consistency Loss (GCL): by using the inverse problem of visual relationship detection (grounding) we impose consistency between the predicted relation and its back-projection to the image through grounding in a fully semi-supervised manner. • Introduce two Precision variations that, by using NGC’s generated negative samples, are able to reflect the problem of context bias. • Perform extensive quantitative and qualitative comparisons between our proposed methods and the relative literature on VRD and VG200, the two most popular datasets of the task, where we achieve 42.2% and 54% maximum relative improvement respectively. All the aforementioned highlight the effectiveness of adopting semi-supervised solutions as well as redefine Precision as a core aspect of visual relationship detection taking a step towards improving our understanding of the task. A big portion of our contributions was submitted to the Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) with the authors being Markos Diomataris, Nikolaos Gkanatsios, Vassilis Pitsikalis and Petros Maragos. | en |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.advisorName | Maragos, Petros | en |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 71 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: