Τεχνικές βαθιάς μηχανικής μάθησης για την αυτόματη δημιουργία περιγραφών εικόνων

Βασιλάκης, Γεώργιος; Vasilakis, Georgios

dc.contributor.author	Βασιλάκης, Γεώργιος	el
dc.contributor.author	Vasilakis, Georgios	en
dc.date.accessioned	2017-10-18T09:48:44Z
dc.date.available	2017-10-18T09:48:44Z
dc.date.issued	2017-10-18
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/45784
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.14601
dc.rights	Default License
dc.subject	Αυτόματη περιγραφή εικόνων	el
dc.subject	Επεξεργασία εικόνων	el
dc.subject	Συνελικτικά νευρωνικά δίκτυα	el
dc.subject	Ανατροφοδοτούμενα νευρωνικά δίκτυα	el
dc.subject	Γλωσσικό μοντέλο	el
dc.subject	Image captioning	el
dc.subject	Image processing	el
dc.subject	Convolutional neural networks	el
dc.subject	Recurrent neural networks	el
dc.subject	Language model	el
dc.title	Τεχνικές βαθιάς μηχανικής μάθησης για την αυτόματη δημιουργία περιγραφών εικόνων	el
heal.type	bachelorThesis
heal.classification	Μηχανική μάθηση	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2017-09-11
heal.abstract	Η αυτόματη περιγραφή του περιεχομένου μιας εικόνας αποτελεί ένα σημαντικό πρόβλημα στο πεδίο της τεχνητής νοημοσύνης, το οποίο συνδυάζει το επιστημονικό πεδίο της Όρασης Υπολογιστών με αυτό της Επεξεργασίας Φυσικής Γλώσσας. Στην διπλωματική αυτή, υλοποιούμε και παρουσιάζουμε ένα μοντέλο, βασισμένο σε τεχνικές βαθιάς μηχανικής μάθησης, το οποίο συνδυάζει πρόσφατες προόδους στην Όραση Υπολογιστών και στην Μετάφραση Μηχανών και το οποίο είναι ικανό να δημιουργεί φυσικές προτάσεις οι οποίες περιγράφουν μια εικόνα. Πιο συγκεκριμένα, χρησιμοποιούμε έναν συνδυασμό Βαθιών Συνελικτικών Νευρωνικών Δικτύων (CNNs) και Ανατροφοδοτούμενων Νευρωνικών Δικτύων (RNNs), προκειμένου να πάρουμε το επιθυμητό αποτέλεσμα. Το μοντέλο μας εκπαιδεύεται έτσι ώστε να μεγιστοποιεί την πιθανότητα επιτυχίας της σωστής πρότασης περιγραφής, δεδομένης μιας εικόνας εισόδου. Πειράματα σε μια μεγάλη βάση δεδομένων για εκπαίδευση, αξιολόγηση και έλεγχο λειτουργίας, όπως είναι η MSCOCO 2015 την οποία και χρησιμοποιήσαμε, αποδεικνύουν την ακρίβεια του μοντέλου καθώς και την ευφράδεια της γλώσσας που μαθαίνει αποκλειστικά από περιγραφές εικόνων. Το μοντέλο μας είναι, συχνά, αρκετά ακριβές, γεγονός που επαληθεύουμε ποιοτικά και ποσοτικά.	el
heal.abstract	Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. In this thesis, we implement and present a generative model based on deep learning techniques that combine recent advances in computer vision and machine translation and that can be used to generate natural sequences describing an image. More specifically, we use a combination of Convolutional Neural Networks along with Recurrent Neural Networks to get the desired results. The model is trained to maximize the likelihood of the target description sentence given the training image. Experiments on a huge training dataset, like that of MSCOCO 2015 that we used, show the accuracy of the model and the fluency of the language it learns solely from image descriptions. Our model is often quite accurate, which we verify both qualitatively and quantitatively.	en
heal.advisorName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Τσανάκας, Παναγιώτης	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	99 σ.
heal.fullTextAvailability	true