Σύστημα Ερωτοαπαντήσεων Βάσει Οπτικού Περιεχομένου με Χρήση Τεχνικών Βαθιάς Μηχανικής Μάθησης

Κακογεωργίου, Ιωάννης; Kakogeorgiou, Ioannis

dc.contributor.author	Κακογεωργίου, Ιωάννης	el
dc.contributor.author	Kakogeorgiou, Ioannis	en
dc.date.accessioned	2019-12-20T11:29:23Z
dc.date.available	2019-12-20T11:29:23Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/49621
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.17319
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Μαθηματική Προτυποποίηση σε Σύγχρονες Τεχνολογίες και στα Χρηματοοικονομικά”	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Βαθιά Νευρωνικά Δίκτυα	el
dc.subject	Εξόρυξη Γνώσης	el
dc.subject	Επεξεργασία Φυσικής Γλώσσας	el
dc.subject	Γλωσσικό Μοντέλο	el
dc.subject	Stacked Attention Networks	en
dc.subject	t-SNE	en
dc.subject	ELMo	en
dc.subject	DenseNet	en
dc.subject	biLSTM	en
dc.subject	LSTM	en
dc.subject	Highway Networks	en
dc.subject	VGGNet	en
dc.title	Σύστημα Ερωτοαπαντήσεων Βάσει Οπτικού Περιεχομένου με Χρήση Τεχνικών Βαθιάς Μηχανικής Μάθησης	el
dc.title	Visual Question Answering with Deep Learning	en
heal.type	masterThesis
heal.classification	Μηχανική Μάθηση	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2019-06-26
heal.abstract	Η παρούσα διπλωματική εργασία ασχολείται με το πρόβλημα της αυτόματης απάντησης σε ερώτηση φυσικής γλώσσας που αναφέρεται στο περιεχόμενο μιας εικόνας (Visual Question Answering ή VQA). Είναι ένα πρόβλημα που εντοπίζεται στην τομή των επιστημονικών πεδίων της Όρασης Υπολογιστών (CV) και της Επεξεργασίας Φυσικής Γλώσσας (NLP), το οποίο στα πλαίσια της εργασίας προσεγγίζεται με τη χρήση Βαθιών Νευρωνικών Δικτύων. Στην εργασία αυτή, υλοποιείται και παρουσιάζεται ένα Σύστημα Ερωτήσεων - Απαντήσεων Βάσει Οπτικού Περιεχομένου το οποίο βασίζεται σε Συνελικτικά Δίκτυα (CNN) και σε Ανατροφoδοτούμενα Δίκτυα (RNN). Συγκεκριμένα για την αναπαράσταση των εικόνων γίνεται χρήση των Συνελικτικών Δικτύων VGGNet-19 και DenseNet-161, ενώ για την αναπαράσταση των ερωτήσεων γίνεται αρχικά χρήση μεθόδων Εμφύτευσης των Λέξεων μέσω Πίνακα Εμφύτευσης και του Γλωσσικού Μοντέλου ELMo, οι οποίες έπειτα τροφοδοτούνται σε ένα LSTM για τη δημιουργία της αναπαράστασης των ερωτήσεων. Οι δύο αυτές αναπαραστάσεις συνδυάζονται μέσω Επιπέδων Πολλαπλής Εστίασης (Stacked Attention Networks) το οποία εντοπίζουν περιοχές της εικόνας που σχετίζονται με την ερώτηση. Με βάση τις περιοχές αυτές εξάγονται τελικά χαρακτηριστικά τα οποία τροφοδοτούνται σε ένα Πλήρως Συνδεδεμένο Επίπεδο το οποίο παράγει την τελική απάντηση. Τα παραπάνω μοντέλα εκπαιδεύτηκαν και αξιολογήθηκαν στο σύνολο δεδομένων VQA v.2 και τα αποτελέσματα έδειξαν ότι το βέλτιστο μοντέλο που αποτελείται από το συνδυασμό πέντε μεμονωμένων μοντέλων (Ensemble Model) επιτυγχάνει αρκετά υψηλή απόδοση.	el
heal.abstract	This thesis tackles the problem of Visual Question Answering (VQA) where an algorithm is given as input an image and a natural language question and generates a natural language answer as the output. VQA lies at the intersection of the fields of Computer Vision and Natural Language Processing and has been historically considered a very challenging problem. In this work, we adopt Deep Neural Networks (DNN) to address this problem. Specifically, we evaluate the performance of various DNN pipelines consisting of different architectures of Convolutional Neural Networks (CNN) and word representations. With respect to the task of feature map extraction from images, we evaluate the VGGNet-19 and DenseNet-161 CNN architectures. With respect to word representation, we evaluate the performance of Embedding Matrix and Language Model ELMo methods, the output of which is fed to an LSTM RNN network to produce the final question embeddings. Both representations are combined with Stacked Attention Networks that focus on image regions related to the question. Features within these regions are extracted and fed to a Fully Connected Layer that produces the final answer. The aforementioned models are trained and validated using the VQA v.2 dataset. Results indicate that using an Ensemble of five models outperforms all evaluated single models and offers additional accuracy.	en
heal.advisorName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Περαντώνης, Σταύρος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Καράντζαλος, Κωνσταντίνος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	110 σ.	el
heal.fullTextAvailability	true