dc.contributor.author |
Βασιλάκης, Γεώργιος
|
el |
dc.contributor.author |
Vasilakis, Georgios
|
en |
dc.date.accessioned |
2017-10-18T09:48:44Z |
|
dc.date.available |
2017-10-18T09:48:44Z |
|
dc.date.issued |
2017-10-18 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/45784 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.14601 |
|
dc.rights |
Default License |
|
dc.subject |
Αυτόματη περιγραφή εικόνων |
el |
dc.subject |
Επεξεργασία εικόνων |
el |
dc.subject |
Συνελικτικά νευρωνικά δίκτυα |
el |
dc.subject |
Ανατροφοδοτούμενα νευρωνικά δίκτυα |
el |
dc.subject |
Γλωσσικό μοντέλο |
el |
dc.subject |
Image captioning |
el |
dc.subject |
Image processing |
el |
dc.subject |
Convolutional neural networks |
el |
dc.subject |
Recurrent neural networks |
el |
dc.subject |
Language model |
el |
dc.title |
Τεχνικές βαθιάς μηχανικής μάθησης για την αυτόματη δημιουργία περιγραφών εικόνων |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Μηχανική μάθηση |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2017-09-11 |
|
heal.abstract |
Η αυτόματη περιγραφή του περιεχομένου μιας εικόνας αποτελεί ένα σημαντικό πρόβλημα στο πεδίο της τεχνητής νοημοσύνης, το οποίο συνδυάζει το επιστημονικό πεδίο της Όρασης Υπολογιστών με αυτό της Επεξεργασίας Φυσικής Γλώσσας.
Στην διπλωματική αυτή, υλοποιούμε και παρουσιάζουμε ένα μοντέλο, βασισμένο σε τεχνικές βαθιάς μηχανικής μάθησης, το οποίο συνδυάζει πρόσφατες προόδους στην Όραση Υπολογιστών και στην Μετάφραση Μηχανών και το οποίο είναι ικανό να δημιουργεί φυσικές προτάσεις οι οποίες περιγράφουν μια εικόνα. Πιο συγκεκριμένα, χρησιμοποιούμε έναν συνδυασμό Βαθιών Συνελικτικών Νευρωνικών Δικτύων (CNNs) και Ανατροφοδοτούμενων Νευρωνικών Δικτύων (RNNs), προκειμένου να πάρουμε το επιθυμητό αποτέλεσμα. Το μοντέλο μας εκπαιδεύεται έτσι ώστε να μεγιστοποιεί την πιθανότητα επιτυχίας της σωστής πρότασης περιγραφής, δεδομένης μιας εικόνας εισόδου.
Πειράματα σε μια μεγάλη βάση δεδομένων για εκπαίδευση, αξιολόγηση και έλεγχο λειτουργίας, όπως είναι η MSCOCO 2015 την οποία και χρησιμοποιήσαμε, αποδεικνύουν την ακρίβεια του μοντέλου καθώς και την ευφράδεια της γλώσσας που μαθαίνει αποκλειστικά από περιγραφές εικόνων. Το μοντέλο μας είναι, συχνά, αρκετά ακριβές, γεγονός που επαληθεύουμε ποιοτικά και ποσοτικά. |
el |
heal.abstract |
Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. In this thesis, we implement and present a generative model based on deep learning techniques that combine recent advances in computer vision and machine translation and that can be used to generate natural sequences describing an image. More specifically, we use a combination of Convolutional Neural Networks along with Recurrent Neural Networks to get the desired results. The model is trained to maximize the likelihood of the target description sentence given the training image. Experiments on a huge training dataset, like that of MSCOCO 2015 that we used, show the accuracy of the model and the fluency of the language it learns solely from image descriptions. Our model is often quite accurate, which we verify both qualitatively and quantitatively. |
en |
heal.advisorName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.committeeMemberName |
Τσανάκας, Παναγιώτης |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
99 σ. |
|
heal.fullTextAvailability |
true |
|