HEAL DSpace

Καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές σύνθεση εικόνων με χρήση μοντέλων διάχυσης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μήτσουρας, Ηλίας el
dc.contributor.author Mitsouras, Ilias en
dc.date.accessioned 2024-07-08T12:17:12Z
dc.date.available 2024-07-08T12:17:12Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59830
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.27526
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-sa/3.0/gr/ *
dc.subject Μοντέλα διάχυσης el
dc.subject Καθοδηγούμενη από σκίτσα σύνθεση εικόνων el
dc.subject U-Net latent edge predictor en
dc.subject Όραση υπολογιστών el
dc.subject Diffusion models en
dc.subject Sketch-to-image synthesis en
dc.subject Computer vision en
dc.subject U-Net latent edge predictor en
dc.title Καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές σύνθεση εικόνων με χρήση μοντέλων διάχυσης el
heal.type masterThesis
heal.secondaryTitle Sketch-guided text-to-image synthesis using diffusion models en
heal.classification Όραση Υπολογιστών el
heal.classification Μηχανική Μάθηση el
heal.classification Τεχνητή Νοημοσύνη el
heal.classification Computer Vision en
heal.classification Machine Learning en
heal.classification Artificial Intelligence en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-03-29
heal.abstract Η καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές σύνθεση εικόνων αποσκοπεί στην παραγωγή ρεαλιστικών και υψηλής πιστότητας εικόνων, οι οποίες αφενός συμμορφώνονται με το νοηματικό περιεχόμενο των κειμενικών περιγραφών και αφετέρου ακολουθούν πιστά τα σκίτσα αναφοράς ως προς τα χωρικά περιγράμματα. Τα τελευταία χρόνια, τα μοντέλα διάχυσης έχουν επιδείξει θεαματικά αποτελέσματα σε προβλήματα σύνθεσης, παράγοντας ρεαλιστικές και υψηλής ανάλυσης εικόνες. Παρά τη μεγάλη τους αυτή επιτυχία, υστερούν ακόμη σημαντικά στο προαναφερθέν πρόβλημα της καθοδηγούμενης από σκίτσα σύνθεσης εικόνων, κατά το οποίο καλούνται να γεφυρώσουν το κενό μεταξύ της αφαιρετικής και αδόμητης φύσης των ελεύθερων σκίτσων και του υψηλού επιπέδου των λεπτομερειών των πραγματικών εικόνων. Μία πρόσφατη προσέγγιση βασίζεται στην υλοποίηση ενός MLP latent edge predictor, ο οποίος εκπαιδεύεται ώστε να προβλέπει τον χάρτη ακμών της παραγόμενης εικόνας σε κάθε βήμα της διαδικασίας αποθορυβοποίησης. Ο χάρτης αυτός αξιοποιείται εν συνεχεία για την καθοδήγηση των χωρικών περιγραμμάτων της εικόνας. Παρά τα σχετικά ικανοποιητικά αποτελέσματα που παρουσιάζει η εν λόγω μέθοδος, δε λαμβάνει υπόψιν τις χωρικές συσχετίσεις των pixels, ενώ συγχρόνως, απαιτεί ένα σημαντικό αριθμό βημάτων κατά τη διαδικασία της αποθορυβοποίησης, με αποτέλεσμα να καθίσταται ιδιαιτέρως χρονοβόρα. Για την αντιμετώπιση των ανωτέρω περιορισμών, στα πλαίσια της παρούσας εργασίας προτείνεται ένα πλαίσιο καθοδήγησης, το οποίο βασίζεται στη χρήση ενός U-Net latent edge predictor, ο οποίος, λόγω της συνελικτικής του φύσης, είναι ικανός να αποτυπώνει αποτελεσματικά, τόσο τοπικά όσο και καθολικά χαρακτηριστικά, αντιμετωπίζοντας τις εισόδους ενιαία και όχι pixel-wise. Επιπρόσθετα, για την ενίσχυση της σθεναρότητας της όλης διαδικασίας, στο προτεινόμενο πλαίσιο προστίθεται και ένα δίκτυο απλοποίησης σκίτσων, το οποίο προσφέρει στο χρήστη τη δυνατότητα απλοποίησης των σκίτσων εισόδου. Τα πειραματικά αποτελέσματα, σε συνδυασμό με τη γνώμη των χρηστών, αποδεικνύουν ότι η χρήση του προτεινόμενου U-Net latent edge predictor οδηγεί σε πιο ρεαλιστικές εικόνες, οι οποίες είναι καλύτερα ευθυγραμμισμένες με τα χωρικά περιγράμματα των σκίτσων αναφοράς, ενώ συγχρόνως, μειώνει δραστικά τα απαιτούμενα βήματα αποθορυβοποίησης και κατά συνέπεια το συνολικό χρόνο εκτέλεσης. el
heal.abstract Sketch-guided text-to-image synthesis aims to obtain realistic and high fidelity images that adhere to the semantic content of the textual descriptions, while faithfully following the spatial outlines of the corresponding sketches. In recent years, diffusion models have demonstrated remarkable results, producing realistic and high-resolution images and thus exhibiting a clear superiority over GANs in text-to-image synthesis tasks. Despite their significant success, they still fall behind in the aforementioned task of sketch-guided image synthesis, as they try to bridge the gap between the abstract and schematic nature of freehand sketches and the rich details of real-world images. A recent approach tries to address this task by employing a per-pixel MLP latent edge predictor to predict the edge map of the generated image at each step of the inverse diffusion process. This edge map is then used to guide the image's spatial outlines towards the reference sketch. Despite yielding relatively satisfactory results, this method does not take into account spatial correlations between pixels and demands numerous denoising iterations to produce satisfying images, leading to time inefficiency. To overcome these limitations, we propose a framework that utilizes a U-Net latent edge predictor, which due to its convolutional nature is capable of effectively capturing both local and global features, treating inputs as whole rather than in a pixel-wise manner. Moreover, the proposed guidance framework is enhanced with the addition of a sketch simplification network, which offers the user the ability to preprocess and simplify input sketches. Experimental results in conjuction with user feedback show that the use of the proposed U-Net latent edge predictor leads to more realistic results, that are better aligned with the spatial outlines of the reference sketches, while significantly reducing the number of required denoising steps and consequently, the overall execution time. en
heal.advisorName Βουλόδημος, Αθανάσιος el
heal.advisorName Voulodimos, Athanasios en
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 123 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα