HEAL DSpace

Δημιουργία Εικόνας από Κείμενο με Χρήση Γεννητικών Ανταγωνιστικών Δικτύων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μασούρης, Αθανάσιος Π. el
dc.contributor.author Masouris, Athanasios P. en
dc.date.accessioned 2020-12-10T10:45:47Z
dc.date.available 2020-12-10T10:45:47Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52452
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.20150
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Όραση υπολογιστών el
dc.subject Δημιουργία εικόνας από κείμενο el
dc.subject Γεννητικά Ανταγωνιστικά Δίκτυα el
dc.subject Στοιβαγμένα GANs el
dc.subject Computer vision en
dc.subject Generative Adversarial Networks (GANs) en
dc.subject Text-to-image synthesis en
dc.subject Stacked GANs en
dc.subject Επιχρωματισμός υπό συνθήκη el
dc.subject Conditional colorization en
dc.title Δημιουργία Εικόνας από Κείμενο με Χρήση Γεννητικών Ανταγωνιστικών Δικτύων el
dc.title Text to Image Synthesis Using GANs en
dc.contributor.department Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.type bachelorThesis
heal.classification Όραση Υπολογιστών el
heal.classification Computer Vision en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-11-02
heal.abstract Η δημιουργία εικόνας από κείμενο αποτελεί αντικείμενο έρευνας που συνδυάζει τους τομείς της Όρασης Υπολογιστών και της Επεξεργασίας Φυσικής Γλώσσας. Στόχος είναι η δημιουργία ενός μοντέλου το οποίο, δοθείσης μιας λεκτικής περιγραφής, θα παράγει εικόνες. Οι εικόνες αυτές θα πρέπει όχι μόνο να είναι ρεαλιστικές, αλλά και οι οπτικές λεπτομέρειες που περιέχουν να αντιστοιχούν στην προαναφερθείσα λεκτική περιγραφή. Με την εμφάνιση των Γεννητικών Ανταγωνιστικών Δικτύων (Generative Adversarial Networks, GANs) σημειώθηκε σημαντική πρόοδος στη συγκεκριμένη κατεύθυνση. Τα συστήματα που έχουν προταθεί έχουν τη δυνατότητα να παράξουν εικόνες υψηλής ανάλυσης, οι οποίες ταυτίζονται με την εκάστοτε λεκτική περιγραφή, με τη χρήση διαφόρων τεχνικών. Η δομή στοιβαγμένων GANs αποτελεί ίσως τη σημαντικότερη από αυτές τις τεχνικές. Τα υπάρχοντα συστήματα παράγουν μία αρχική εικόνα χαμηλών διαστάσεων, η οποία περνά από έναν αριθμό σταδίων βελτίωσης προκειμένου να παραχθεί η τελική εικόνα υψηλών διαστάσεων. Στην παρούσα διπλωματική διατριβή προτείνουμε μία νέα αρχιτεκτονική για τη δημιουργία εικόνων υψηλών διαστάσεων. Πιο συγκεκριμένα, χρησιμοποιούμε τη δομή στοιβαγμένων GANs, με τρία επίπεδα, προκειμένου να διασπάσουμε το συνολικό δύσκολο πρόβλημα παραγωγής εικόνας υψηλών διαστάσεων σε επιμέρους διαχειρίσιμα υποπροβλήματα. Στο πρώτο στάδιο παράγεται μία ασπρόμαυρη εικόνα διαστάσεων 128x128. Στο δεύτερο στάδιο προστίθενται χρώματα στην εικόνα του πρώτου σταδίου. Τέλος, στο τρίτο και τελευταίο στάδιο η εικόνα του δευτέρου σταδίου μεγεθύνεται προκειμένου να παραχθεί εικόνα υψηλών διαστάσεων (256x256). Ακόμη, στα πλαίσια αυτής της εργασίας, εξετάζεται η επίδραση των αναπαραστάσεων κειμένου, που προέκυψαν από τα μοντέλα char-CNN-RNN, GPT-2 και RoBERTa, στην ποιότητα των παραγόμενων εικόνων των μοντέλων gan-int-cls και StackGAN για τα σύνολα δεδομένων Oxford-102 και CUB. Γίνεται, επίσης, εκπαίδευση των δικτύων αυτών στο σύνολο δεδομένων Flickr8k και παρουσιάζονται τα αποτελέσματα. el
heal.abstract The problem of text-to-image synthesis is a research area that combines the fields of Computer Vision and Natural Language Processing. The goal is to create a model which, given a text description, generates images. These images must not only be realistic but also contain visual details that match the aforementioned text description. The emergence of Generative Adversarial Networks (GANs) marked a period of significant pro-gress in this direction. The systems that have been proposed can generate high-resolution images that match their corresponding text description using a variety of techniques. Stacked GANs probably constitute the most important development in this direction. Existing models generate an initial image of low quality, which passes through a number of sketch-refinement processing stages in order to generate the high-resolution image. In this diploma dissertation, we propose a novel architecture to generate high-resolution images. In particular, we use the Stacked GANs structure, with three stages, in order to decompose the difficult problem of generating images of high quality into more manageable sub-problems. More specifically, the network of the first stage generates a black and white image of 128x128 resolution. At the second stage, colors are added to the image of the first stage. Finally, at the third and last stage, the image of the second stage is enhanced to high resolution (256x256). In addition, we examine the impact of different text representations, produced by char-CNN-RNN, GPT-2 and RoBERTa language models, on the quality of generated images from gan-int-cls and StackGAN models on Oxford-102 and CUB datasets. We also train these networks on the Flickr8k dataset and produce results. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.advisorName Αλεξανδρίδης, Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.academicPublisherID ntua
heal.numberOfPages 71 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα