heal.abstract |
Η Απάντηση σε Οπτικές Ερωτήσεις (VQA) βρίσκεται στο προσκήνιο της προαγωγής της Γενικής Τεχνητής Νοημοσύνης (AGI), συνδυάζοντας τον τομέα της υπολογιστικής όρασης με την επεξεργασία φυσικής γλώσσας. Το VQA απαιτεί μια βαθιά κατανόηση του οπτικού περιεχομένου και των φυσικών γλωσσικών ερωτήσεων, απαιτώντας ένα προχωρημένο επίπεδο αναγνώρισης αντικειμένων, σκηνών και δραστηριοτήτων. Τα τρέχοντα μοντέλα στο VQA μπορεί να έχουν πολύ υψηλές επιδόσεις σε κλασικά σύνολα δεδομένων (datasets), αλλά πολλές φορές περιορίζονται από υπερβολική εξάρτηση στις συσχετίσεις των δεδομένων εκπαίδευσης, ειδικά στον τομέα της γλώσσας, απαντώντας συχνά χωρίς να λαμβάνουν υπόψιν τους τις εικόνες. Αυτό έχει ως αποτέλεσμα μοντέλα τα οποία είναι εξαιρετικά στον τομέα της εκπαίδευσης να αποτυγχάνουν σε ποικίλα περιβάλλοντα δοκιμών, προτιμώντας συχνά γλωσσικές ευριστικές προσεγγίσεις αντί να ακολουθούν αιτιακή σκέψη στηριζόμενες στην οπτική κατανόηση. Αυτή η διατριβή αντιμετωπίζει αυτές τις προκλήσεις επικεντρώμενη στη γενίκευση στη VQA, ιδιαίτερα σε σενάρια εκτός κατανομής. Η διπλωματική εργασία χτίζει σταδιακά την κατανόηση του αναγνώστη, ξεκινώντας από θεμελιώδεις έννοιες της μηχανικής μάθησης και αναλύοντας, στη συνέχεια, προχωρημένα θέματα των νευρωνικών δικτύων, και του VQA. Κατόπιν, διεξάγουμε μια σφαιρική βιβλιογραφική ανασκόπηση του τομέα γενίκευσης στο αντικείμενο του VQA. Αυτή η ανασκόπηση διαμορφώνει μια βαθιά κατανόηση των διάφορων μεθόδων γενίκευσης σε δεδομένα εκτός κατανομής και περιλαμβάνει επανεκτελέσεις καινοτόμων μεθόδων. Αναφέρουμε ορισμένα ευρήματα και συμπεράσματα βασισμένα στα αποτελέσματα των μεθόδων στα σύνολα δεδομένων GQA OOD και VQA-CPv2. Ακολουθούν, αρχικά πειράματα στη δημιουργία οπτικών ερωτήσεων ως τεχνική επαύξησης δεδομένων και ανάλυση των αποτελεσμάτων. Το κύριο αντικείμενο αυτής της εργασίας είναι η ανάπτυξη μιας νέας μεθοδολογίας μάσκας αντικειμένων εικόνας που αποκλίνει από τις παραδοσιακές προσεγγίσεις. Οι προσαρμοσμένες μας μέθοδοι μάσκας βασίζονται στον εντοπισμό σημαντικών αντικειμένων χρησιμοποιώντας επισημειώσεις στο σύνολο δεδομένων μας και χρησιμοποιώντας μάσκες για τη δημιουργία θετικών και αρνητικών τριάδων Εικόνας-Ερώτησης. Χρησιμοποιεί μια συνάρτηση κόστους τριπλών απωλειών, υπεύθυνη για την προσέγγιση των πολυδιάστατων αναπαραστάσεων των πραγματικών δειγμάτων πιο κοντά στα θετικά δείγματα και μακριά από τα αρνητικά. Επιπλέον, χρησιμοποιήσαμε μια συνάρτηση κόστους βασισμένη στην επαύξηση δεδομένων με τα θετικά δείγματα. Τέλος, πειραματιστήκαμε με μια τυχαία μέθοδο μάσκας που έδειξε σημαντικές βελτιώσεις στην απόδοση σε συνδυασμό με την αρχική μας μεθοδολογία. Τα προτεινόμενα μοντέλα μας συνδυάζοντας τις αναφερθείσες μεθοδολογίες οδηγούν σε σημαντικές βελτιώσεις σε συνθήκες εντός και εκτός κατανομής στο σύνολο δεδομένων GQA OOD. Συνοψίζοντας, αυτή η διατριβή περιλαμβάνει τις νέες συνεισφορές μας στον τομέα του VQA, αναλύοντας τα κύρια ευρήματά μας και προτείνοντας κατευθύνσεις για μελλοντική έρευνα για να βελτιώσουν περαιτέρω τις δυνατότητες γενίκευσης των μοντέλων VQA. |
el |