HEAL DSpace

Σύστημα Ερωτοαπαντήσεων Βάσει Οπτικού Περιεχομένου με Χρήση Τεχνικών Βαθιάς Μηχανικής Μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κακογεωργίου, Ιωάννης el
dc.contributor.author Kakogeorgiou, Ioannis en
dc.date.accessioned 2019-12-20T11:29:23Z
dc.date.available 2019-12-20T11:29:23Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/49621
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.17319
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Μαθηματική Προτυποποίηση σε Σύγχρονες Τεχνολογίες και στα Χρηματοοικονομικά” el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Βαθιά Νευρωνικά Δίκτυα el
dc.subject Εξόρυξη Γνώσης el
dc.subject Επεξεργασία Φυσικής Γλώσσας el
dc.subject Γλωσσικό Μοντέλο el
dc.subject Stacked Attention Networks en
dc.subject t-SNE en
dc.subject ELMo en
dc.subject DenseNet en
dc.subject biLSTM en
dc.subject LSTM en
dc.subject Highway Networks en
dc.subject VGGNet en
dc.title Σύστημα Ερωτοαπαντήσεων Βάσει Οπτικού Περιεχομένου με Χρήση Τεχνικών Βαθιάς Μηχανικής Μάθησης el
dc.title Visual Question Answering with Deep Learning en
heal.type masterThesis
heal.classification Μηχανική Μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2019-06-26
heal.abstract Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της αυτόματης απάντησης σε ερώτηση φυσικής γλώσσας που αναφέρεται στο περιεχόμενο μιας εικόνας (Visual Question Answering ή VQA). Είναι ένα πρόβλημα που εντοπίζεται στην τομή των επιστημονικών πεδίων της Όρασης Υπολογιστών (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP), το οποίο στα πλαίσια της εργασίας προσεγγίζεται με τη χρήση Βαθιών Νευρωνικών Δικτύων. Στην εργασία αυτή, υλοποιείται και παρουσιάζεται ένα Σύστημα Ερωτήσεων - Απαντήσεων Βάσει Οπτικού Περιεχομένου το οποίο βασίζεται σε Συνελικτικά Δίκτυα (CNN) και σε Ανατροφoδοτούμενα Δίκτυα (RNN). Συγκεκριμένα για την αναπαράσταση των εικόνων γίνεται χρήση των Συνελικτικών Δικτύων VGGNet-19 και DenseNet-161, ενώ για την αναπαράσταση των ερωτήσεων γίνεται αρχικά χρήση μεθόδων Εμφύτευσης των Λέξεων μέσω Πίνακα Εμφύτευσης και του Γλωσσικού Μοντέλου ELMo, οι οποίες έπειτα τροφοδοτούνται σε ένα LSTM για τη δημιουργία της αναπαράστασης των ερωτήσεων. Οι δύο αυτές αναπαραστάσεις συνδυάζονται μέσω Επιπέδων Πολλαπλής Εστίασης (Stacked Attention Networks) το οποία εντοπίζουν περιοχές της εικόνας που σχετίζονται με την ερώτηση. Με βάση τις περιοχές αυτές εξάγονται τελικά χαρακτηριστικά τα οποία τροφοδοτούνται σε ένα Πλήρως Συνδεδεμένο Επίπεδο το οποίο παράγει την τελική απάντηση. Τα παραπάνω μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν στο σύνολο δεδομένων VQA v.2 και τα αποτελέσματα έδειξαν ότι το βέλτιστο μοντέλο που αποτελείται από το συνδυασμό πέντε μεμονωμένων μοντέλων (Ensemble Model) επιτυγχάνει αρκετά υψηλή απόδοση. el
heal.abstract This thesis tackles the problem of Visual Question Answering (VQA) where an algorithm is given as input an image and a natural language question and generates a natural language answer as the output. VQA lies at the intersection of the fields of Computer Vision and Natural Language Processing and has been historically considered a very challenging problem. In this work, we adopt Deep Neural Networks (DNN) to address this problem. Specifically, we evaluate the performance of various DNN pipelines consisting of different architectures of Convolutional Neural Networks (CNN) and word representations. With respect to the task of feature map extraction from images, we evaluate the VGGNet-19 and DenseNet-161 CNN architectures. With respect to word representation, we evaluate the performance of Embedding Matrix and Language Model ELMo methods, the output of which is fed to an LSTM RNN network to produce the final question embeddings. Both representations are combined with Stacked Attention Networks that focus on image regions related to the question. Features within these regions are extracted and fed to a Fully Connected Layer that produces the final answer. The aforementioned models are trained and validated using the VQA v.2 dataset. Results indicate that using an Ensemble of five models outperforms all evaluated single models and offers additional accuracy. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Περαντώνης, Σταύρος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Καράντζαλος, Κωνσταντίνος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 110 σ. el
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα