HEAL DSpace

Cognitive methods for image captioning

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σωτηρίου, Δημήτριος
dc.contributor.author Sotiriou, Dimitrios
dc.date.accessioned 2022-01-31T09:45:13Z
dc.date.available 2022-01-31T09:45:13Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54489
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22187
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject μηχανική μάθηση el
dc.subject βαθιά μάθηση el
dc.subject νευρωνικά δίκτυα el
dc.subject μετασχηματιστές el
dc.subject γνωσιακή νευροεπιστήμη el
dc.subject λειτουργική μαγνητική τομογραφία el
dc.subject δημιουργία λεζάντας εικόνας el
dc.subject machine learning en
dc.subject deep learning en
dc.subject neural networks en
dc.subject transformers en
dc.subject cognitive en
dc.subject neuroscience en
dc.subject functional MRI en
dc.subject image captioning en
dc.title Cognitive methods for image captioning en
dc.contributor.department Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.type bachelorThesis
heal.classification Μηχανική Μάθηση el
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-07-26
heal.abstract Παρόλο που το εγχείρημα της δημιουργίας λεζάντας σε μια εικόνα είναι δύσκολο για τους υπολογιστές, οι άνθρωποι μπορούν εύκολα να το φέρουν σε πέρας χάρη σε εγγενείς δυνατότητες του εγκεφάλου τους. Με βάση σχετικές έρευνες, συνάγεται ότι οι ενεργοποιήσεις του ανθρώπινου εγκεφάλου κωδικοποιούν σημασιολογικές πληροφορίες για το τι βλέπουμε και σκεπτόμαστε. Στο πεδίο της νευροεπιστήμης, πραγματοποιήθηκαν αρκετές μελέτες με στόχο την εξαγωγή πληροφοριών αυτού του τύπου από τις εγκεφαλικές ενεργοποιήσεις. Σε αυτή την εργασία, προτείνονται διάφορες τεχνικές ενσωμάτωσης των εγκεφαλικών ενεργοποιήσεων fMRI σε ένα μοντέλο δημιουργίας λεζάντας για εικόνα, που βασίζεται στην αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή των μετασχηματιστών. Ειδικότερα, εξετάζουμε την προσθήκη πληροφορίας fMRI στον κωδικοποιητή, την συνθηκοθέτηση του μηχανισμού προσοχής στον αποκωδικοποιητή και άλλες τεχνικές με χρήση ξεχωριστού κωδικοποιητή για τις εγκεφαλικές ενεργοποιήσεις. Επιπροσθέτως, διερευνούμε περισσότερο προσαρμοστικές εκδοχές των προαναφερθεισών τεχνικών ενσωμάτωσης, προκειμένου να διασφαλίσουμε την χρήση της αδύναμης τροπικότητας των εγκεφαλικών ενεργοποιήσεων και να επιτρέψουμε την αξιοποίησή τους μόνο στις περιπτώσεις όπου ενδέχεται να συνεισφέρουν σημαντικές πληροφορίες στο μοντέλο. Λόγω του γεγονότος ότι τα δεδομένα fMRI είναι περιορισμένα, εκτελείται με διαφορετικούς τρόπους ένα βήμα «λεξικής επέκτασης», όπου προβλέπονται οι εγκεφαλικές ενεργοποιήσεις για καινούρια οπτικά ερεθίσματα, τα οποία δεν χρησιμοποιήθηκαν κατά το πείραμα fMRI. Τα αποτελέσματα που προέκυψαν δείχνουν κατ’ αρχάς ότι η κύρια διαδικασία αξιολόγησης που προτείνεται στη βιβλιογραφία δεν εγγυάται την ποιότητα της «λεξικής επέκτασης», καθώς μέσα από άλλες διαδικασίες αξιολόγησης φαίνεται ότι αυτή η αντιστοίχιση δεν είναι εύρωστη και δυνητικά εισάγει επιπρόσθετο θόρυβο στις προβλεφθείσες ενεργοποιήσεις. Δεύτερον, ότι το περιθώριο βελτίωσης με εγκεφαλικές ενεργοποιήσεις του μοντέλου δημιουργίας λεζάντας φαίνεται εδώ αρκετά περιορισμένο, καθώς σε όλα τα πειράματά μας παρατηρούνται μόνο μικρές αποκλίσεις σε σχέση με το βασικό μοντέλο. Αυτό υποδηλώνει ότι το μοντέλο δεν καταφέρνει να εξαγάγει χρήσιμη πληροφορία από την αδύναμη τροπικότητα των εγκεφαλικών ενεργοποιήσεων. Τέλος, συμπεραίνεται ότι απαιτείται περαιτέρω έρευνα, προκειμένου να δια-x πιστωθεί η αποτελεσματικότητα των εγκεφαλικών ενεργοποιήσεων στο εν λόγω πρόβλημα. el
heal.abstract Even though image captioning is a difficult task for computers, humans can easily describe images through inherent capabilities of their brains with little effort. Recent research has shown that brain activations encode semantic information about what people see and think. In the domain of neuroscience, several studies have attempted to extract this information from brain activations. In this work, we propose several techniques of incorporating fMRI brain activations to an image captioning model that is based on the transformer encoder-decoder architecture. Specifically, we consider fusion at the encoder, attention conditioning on the decoder and other techniques with a separate transformer encoder for the brain activations. In addition, more adaptive variants of the aforementioned fusion techniques are explored in order to enforce the usage of the weak modality of brain activations or to enable the usage of the brain activations only when they are likely to contribute significant information to the model. Due to the fact that fMRI data are limited, a “lexical expansion” step is performed in various different ways, where brain activations are predicted for novel visual stimuli, that were not used in the fMRI experiment. Our results indicate that the quality of the “lexical expansion” is not guaranteed by the main evaluation process proposed in the literature, as other evaluation procedures indicate that this mapping is not very robust, potentially introducing additional noise to the predicted activations. Therefore, the scope for improvement of the model via brain activations seems to be quite limited and only minor deviations from the baseline are observed in all our experiments, suggesting that the model fails to extract meaningful information from the weak modality of brain activations. Finally, we conclude that additional research is needed in order to establish the usefulness of brain activations in complex computational tasks such as image captioning. en
heal.advisorName Ποταμιάνος, Αλέξανδρος
heal.advisorName Potamianos, Alexandros
heal.committeeMemberName Κόλλιας, Στέφανος
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος
heal.committeeMemberName Kollias, Stefanos
heal.committeeMemberName Stafylopatis, Andreas-Georgios
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 114
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα