Καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές
σύνθεση εικόνων με χρήση μοντέλων διάχυσης

Μήτσουρας, Ηλίας; Mitsouras, Ilias

dc.contributor.author	Μήτσουρας, Ηλίας	el
dc.contributor.author	Mitsouras, Ilias	en
dc.date.accessioned	2024-07-08T12:17:12Z
dc.date.available	2024-07-08T12:17:12Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/59830
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27526
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-sa/3.0/gr/	*
dc.subject	Μοντέλα διάχυσης	el
dc.subject	Καθοδηγούμενη από σκίτσα σύνθεση εικόνων	el
dc.subject	U-Net latent edge predictor	en
dc.subject	Όραση υπολογιστών	el
dc.subject	Diffusion models	en
dc.subject	Sketch-to-image synthesis	en
dc.subject	Computer vision	en
dc.subject	U-Net latent edge predictor	en
dc.title	Καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές σύνθεση εικόνων με χρήση μοντέλων διάχυσης	el
heal.type	masterThesis
heal.secondaryTitle	Sketch-guided text-to-image synthesis using diffusion models	en
heal.classification	Όραση Υπολογιστών	el
heal.classification	Μηχανική Μάθηση	el
heal.classification	Τεχνητή Νοημοσύνη	el
heal.classification	Computer Vision	en
heal.classification	Machine Learning	en
heal.classification	Artificial Intelligence	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-03-29
heal.abstract	Η καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές σύνθεση εικόνων αποσκοπεί στην παραγωγή ρεαλιστικών και υψηλής πιστότητας εικόνων, οι οποίες αφενός συμμορφώνονται με το νοηματικό περιεχόμενο των κειμενικών περιγραφών και αφετέρου ακολουθούν πιστά τα σκίτσα αναφοράς ως προς τα χωρικά περιγράμματα. Τα τελευταία χρόνια, τα μοντέλα διάχυσης έχουν επιδείξει θεαματικά αποτελέσματα σε προβλήματα σύνθεσης, παράγοντας ρεαλιστικές και υψηλής ανάλυσης εικόνες. Παρά τη μεγάλη τους αυτή επιτυχία, υστερούν ακόμη σημαντικά στο προαναφερθέν πρόβλημα της καθοδηγούμενης από σκίτσα σύνθεσης εικόνων, κατά το οποίο καλούνται να γεφυρώσουν το κενό μεταξύ της αφαιρετικής και αδόμητης φύσης των ελεύθερων σκίτσων και του υψηλού επιπέδου των λεπτομερειών των πραγματικών εικόνων. Μία πρόσφατη προσέγγιση βασίζεται στην υλοποίηση ενός MLP latent edge predictor, ο οποίος εκπαιδεύεται ώστε να προβλέπει τον χάρτη ακμών της παραγόμενης εικόνας σε κάθε βήμα της διαδικασίας αποθορυβοποίησης. Ο χάρτης αυτός αξιοποιείται εν συνεχεία για την καθοδήγηση των χωρικών περιγραμμάτων της εικόνας. Παρά τα σχετικά ικανοποιητικά αποτελέσματα που παρουσιάζει η εν λόγω μέθοδος, δε λαμβάνει υπόψιν τις χωρικές συσχετίσεις των pixels, ενώ συγχρόνως, απαιτεί ένα σημαντικό αριθμό βημάτων κατά τη διαδικασία της αποθορυβοποίησης, με αποτέλεσμα να καθίσταται ιδιαιτέρως χρονοβόρα. Για την αντιμετώπιση των ανωτέρω περιορισμών, στα πλαίσια της παρούσας εργασίας προτείνεται ένα πλαίσιο καθοδήγησης, το οποίο βασίζεται στη χρήση ενός U-Net latent edge predictor, ο οποίος, λόγω της συνελικτικής του φύσης, είναι ικανός να αποτυπώνει αποτελεσματικά, τόσο τοπικά όσο και καθολικά χαρακτηριστικά, αντιμετωπίζοντας τις εισόδους ενιαία και όχι pixel-wise. Επιπρόσθετα, για την ενίσχυση της σθεναρότητας της όλης διαδικασίας, στο προτεινόμενο πλαίσιο προστίθεται και ένα δίκτυο απλοποίησης σκίτσων, το οποίο προσφέρει στο χρήστη τη δυνατότητα απλοποίησης των σκίτσων εισόδου. Τα πειραματικά αποτελέσματα, σε συνδυασμό με τη γνώμη των χρηστών, αποδεικνύουν ότι η χρήση του προτεινόμενου U-Net latent edge predictor οδηγεί σε πιο ρεαλιστικές εικόνες, οι οποίες είναι καλύτερα ευθυγραμμισμένες με τα χωρικά περιγράμματα των σκίτσων αναφοράς, ενώ συγχρόνως, μειώνει δραστικά τα απαιτούμενα βήματα αποθορυβοποίησης και κατά συνέπεια το συνολικό χρόνο εκτέλεσης.	el
heal.abstract	Sketch-guided text-to-image synthesis aims to obtain realistic and high fidelity images that adhere to the semantic content of the textual descriptions, while faithfully following the spatial outlines of the corresponding sketches. In recent years, diffusion models have demonstrated remarkable results, producing realistic and high-resolution images and thus exhibiting a clear superiority over GANs in text-to-image synthesis tasks. Despite their significant success, they still fall behind in the aforementioned task of sketch-guided image synthesis, as they try to bridge the gap between the abstract and schematic nature of freehand sketches and the rich details of real-world images. A recent approach tries to address this task by employing a per-pixel MLP latent edge predictor to predict the edge map of the generated image at each step of the inverse diffusion process. This edge map is then used to guide the image's spatial outlines towards the reference sketch. Despite yielding relatively satisfactory results, this method does not take into account spatial correlations between pixels and demands numerous denoising iterations to produce satisfying images, leading to time inefficiency. To overcome these limitations, we propose a framework that utilizes a U-Net latent edge predictor, which due to its convolutional nature is capable of effectively capturing both local and global features, treating inputs as whole rather than in a pixel-wise manner. Moreover, the proposed guidance framework is enhanced with the addition of a sketch simplification network, which offers the user the ability to preprocess and simplify input sketches. Experimental results in conjuction with user feedback show that the use of the proposed U-Net latent edge predictor leads to more realistic results, that are better aligned with the spatial outlines of the reference sketches, while significantly reducing the number of required denoising steps and consequently, the overall execution time.	en
heal.advisorName	Βουλόδημος, Αθανάσιος	el
heal.advisorName	Voulodimos, Athanasios	en
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	123 σ.	el
heal.fullTextAvailability	false