HEAL DSpace

Τεχνικές βαθιάς μηχανικής μάθησης για την αυτόματη δημιουργία περιγραφών εικόνων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βασιλάκης, Γεώργιος el
dc.contributor.author Vasilakis, Georgios en
dc.date.accessioned 2017-10-18T09:48:44Z
dc.date.available 2017-10-18T09:48:44Z
dc.date.issued 2017-10-18
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/45784
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14601
dc.rights Default License
dc.subject Αυτόματη περιγραφή εικόνων el
dc.subject Επεξεργασία εικόνων el
dc.subject Συνελικτικά νευρωνικά δίκτυα el
dc.subject Ανατροφοδοτούμενα νευρωνικά δίκτυα el
dc.subject Γλωσσικό μοντέλο el
dc.subject Image captioning el
dc.subject Image processing el
dc.subject Convolutional neural networks el
dc.subject Recurrent neural networks el
dc.subject Language model el
dc.title Τεχνικές βαθιάς μηχανικής μάθησης για την αυτόματη δημιουργία περιγραφών εικόνων el
heal.type bachelorThesis
heal.classification Μηχανική μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-09-11
heal.abstract Η αυτόματη περιγραφή του περιεχομένου μιας εικόνας αποτελεί ένα σημαντικό πρόβλημα στο πεδίο της τεχνητής νοημοσύνης, το οποίο συνδυάζει το επιστημονικό πεδίο της Όρασης Υπολογιστών με αυτό της Επεξεργασίας Φυσικής Γλώσσας. Στην διπλωματική αυτή, υλοποιούμε και παρουσιάζουμε ένα μοντέλο, βασισμένο σε τεχνικές βαθιάς μηχανικής μάθησης, το οποίο συνδυάζει πρόσφατες προόδους στην Όραση Υπολογιστών και στην Μετάφραση Μηχανών και το οποίο είναι ικανό να δημιουργεί φυσικές προτάσεις οι οποίες περιγράφουν μια εικόνα. Πιο συγκεκριμένα, χρησιμοποιούμε έναν συνδυασμό Βαθιών Συνελικτικών Νευρωνικών Δικτύων (CNNs) και Ανατροφοδοτούμενων Νευρωνικών Δικτύων (RNNs), προκειμένου να πάρουμε το επιθυμητό αποτέλεσμα. Το μοντέλο μας εκπαιδεύεται έτσι ώστε να μεγιστοποιεί την πιθανότητα επιτυχίας της σωστής πρότασης περιγραφής, δεδομένης μιας εικόνας εισόδου. Πειράματα σε μια μεγάλη βάση δεδομένων για εκπαίδευση, αξιολόγηση και έλεγχο λειτουργίας, όπως είναι η MSCOCO 2015 την οποία και χρησιμοποιήσαμε, αποδεικνύουν την ακρίβεια του μοντέλου καθώς και την ευφράδεια της γλώσσας που μαθαίνει αποκλειστικά από περιγραφές εικόνων. Το μοντέλο μας είναι, συχνά, αρκετά ακριβές, γεγονός που επαληθεύουμε ποιοτικά και ποσοτικά. el
heal.abstract Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. In this thesis, we implement and present a generative model based on deep learning techniques that combine recent advances in computer vision and machine translation and that can be used to generate natural sequences describing an image. More specifically, we use a combination of Convolutional Neural Networks along with Recurrent Neural Networks to get the desired results. The model is trained to maximize the likelihood of the target description sentence given the training image. Experiments on a huge training dataset, like that of MSCOCO 2015 that we used, show the accuracy of the model and the fluency of the language it learns solely from image descriptions. Our model is often quite accurate, which we verify both qualitatively and quantitatively. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Τσανάκας, Παναγιώτης el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 99 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής