dc.contributor.author | Κακογεωργίου, Ιωάννης | el |
dc.contributor.author | Kakogeorgiou, Ioannis | en |
dc.date.accessioned | 2019-12-20T11:29:23Z | |
dc.date.available | 2019-12-20T11:29:23Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/49621 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.17319 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Μαθηματική Προτυποποίηση σε Σύγχρονες Τεχνολογίες και στα Χρηματοοικονομικά” | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Βαθιά Νευρωνικά Δίκτυα | el |
dc.subject | Εξόρυξη Γνώσης | el |
dc.subject | Επεξεργασία Φυσικής Γλώσσας | el |
dc.subject | Γλωσσικό Μοντέλο | el |
dc.subject | Stacked Attention Networks | en |
dc.subject | t-SNE | en |
dc.subject | ELMo | en |
dc.subject | DenseNet | en |
dc.subject | biLSTM | en |
dc.subject | LSTM | en |
dc.subject | Highway Networks | en |
dc.subject | VGGNet | en |
dc.title | Σύστημα Ερωτοαπαντήσεων Βάσει Οπτικού Περιεχομένου με Χρήση Τεχνικών Βαθιάς Μηχανικής Μάθησης | el |
dc.title | Visual Question Answering with Deep Learning | en |
heal.type | masterThesis | |
heal.classification | Μηχανική Μάθηση | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2019-06-26 | |
heal.abstract | Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της αυτόματης απάντησης σε ερώτηση φυσικής γλώσσας που αναφέρεται στο περιεχόμενο μιας εικόνας (Visual Question Answering ή VQA). Είναι ένα πρόβλημα που εντοπίζεται στην τομή των επιστημονικών πεδίων της Όρασης Υπολογιστών (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP), το οποίο στα πλαίσια της εργασίας προσεγγίζεται με τη χρήση Βαθιών Νευρωνικών Δικτύων. Στην εργασία αυτή, υλοποιείται και παρουσιάζεται ένα Σύστημα Ερωτήσεων - Απαντήσεων Βάσει Οπτικού Περιεχομένου το οποίο βασίζεται σε Συνελικτικά Δίκτυα (CNN) και σε Ανατροφoδοτούμενα Δίκτυα (RNN). Συγκεκριμένα για την αναπαράσταση των εικόνων γίνεται χρήση των Συνελικτικών Δικτύων VGGNet-19 και DenseNet-161, ενώ για την αναπαράσταση των ερωτήσεων γίνεται αρχικά χρήση μεθόδων Εμφύτευσης των Λέξεων μέσω Πίνακα Εμφύτευσης και του Γλωσσικού Μοντέλου ELMo, οι οποίες έπειτα τροφοδοτούνται σε ένα LSTM για τη δημιουργία της αναπαράστασης των ερωτήσεων. Οι δύο αυτές αναπαραστάσεις συνδυάζονται μέσω Επιπέδων Πολλαπλής Εστίασης (Stacked Attention Networks) το οποία εντοπίζουν περιοχές της εικόνας που σχετίζονται με την ερώτηση. Με βάση τις περιοχές αυτές εξάγονται τελικά χαρακτηριστικά τα οποία τροφοδοτούνται σε ένα Πλήρως Συνδεδεμένο Επίπεδο το οποίο παράγει την τελική απάντηση. Τα παραπάνω μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν στο σύνολο δεδομένων VQA v.2 και τα αποτελέσματα έδειξαν ότι το βέλτιστο μοντέλο που αποτελείται από το συνδυασμό πέντε μεμονωμένων μοντέλων (Ensemble Model) επιτυγχάνει αρκετά υψηλή απόδοση. | el |
heal.abstract | This thesis tackles the problem of Visual Question Answering (VQA) where an algorithm is given as input an image and a natural language question and generates a natural language answer as the output. VQA lies at the intersection of the fields of Computer Vision and Natural Language Processing and has been historically considered a very challenging problem. In this work, we adopt Deep Neural Networks (DNN) to address this problem. Specifically, we evaluate the performance of various DNN pipelines consisting of different architectures of Convolutional Neural Networks (CNN) and word representations. With respect to the task of feature map extraction from images, we evaluate the VGGNet-19 and DenseNet-161 CNN architectures. With respect to word representation, we evaluate the performance of Embedding Matrix and Language Model ELMo methods, the output of which is fed to an LSTM RNN network to produce the final question embeddings. Both representations are combined with Stacked Attention Networks that focus on image regions related to the question. Features within these regions are extracted and fed to a Fully Connected Layer that produces the final answer. The aforementioned models are trained and validated using the VQA v.2 dataset. Results indicate that using an Ensemble of five models outperforms all evaluated single models and offers additional accuracy. | en |
heal.advisorName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Περαντώνης, Σταύρος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Καράντζαλος, Κωνσταντίνος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 110 σ. | el |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: