dc.contributor.author | Μήτσουρας, Ηλίας | el |
dc.contributor.author | Mitsouras, Ilias | en |
dc.date.accessioned | 2024-07-08T12:17:12Z | |
dc.date.available | 2024-07-08T12:17:12Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/59830 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.27526 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" | el |
dc.rights | Αναφορά Δημιουργού - Παρόμοια Διανομή 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/gr/ | * |
dc.subject | Μοντέλα διάχυσης | el |
dc.subject | Καθοδηγούμενη από σκίτσα σύνθεση εικόνων | el |
dc.subject | U-Net latent edge predictor | en |
dc.subject | Όραση υπολογιστών | el |
dc.subject | Diffusion models | en |
dc.subject | Sketch-to-image synthesis | en |
dc.subject | Computer vision | en |
dc.subject | U-Net latent edge predictor | en |
dc.title | Καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές σύνθεση εικόνων με χρήση μοντέλων διάχυσης | el |
heal.type | masterThesis | |
heal.secondaryTitle | Sketch-guided text-to-image synthesis using diffusion models | en |
heal.classification | Όραση Υπολογιστών | el |
heal.classification | Μηχανική Μάθηση | el |
heal.classification | Τεχνητή Νοημοσύνη | el |
heal.classification | Computer Vision | en |
heal.classification | Machine Learning | en |
heal.classification | Artificial Intelligence | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-03-29 | |
heal.abstract | Η καθοδηγούμενη από σκίτσα και κειμενικές περιγραφές σύνθεση εικόνων αποσκοπεί στην παραγωγή ρεαλιστικών και υψηλής πιστότητας εικόνων, οι οποίες αφενός συμμορφώνονται με το νοηματικό περιεχόμενο των κειμενικών περιγραφών και αφετέρου ακολουθούν πιστά τα σκίτσα αναφοράς ως προς τα χωρικά περιγράμματα. Τα τελευταία χρόνια, τα μοντέλα διάχυσης έχουν επιδείξει θεαματικά αποτελέσματα σε προβλήματα σύνθεσης, παράγοντας ρεαλιστικές και υψηλής ανάλυσης εικόνες. Παρά τη μεγάλη τους αυτή επιτυχία, υστερούν ακόμη σημαντικά στο προαναφερθέν πρόβλημα της καθοδηγούμενης από σκίτσα σύνθεσης εικόνων, κατά το οποίο καλούνται να γεφυρώσουν το κενό μεταξύ της αφαιρετικής και αδόμητης φύσης των ελεύθερων σκίτσων και του υψηλού επιπέδου των λεπτομερειών των πραγματικών εικόνων. Μία πρόσφατη προσέγγιση βασίζεται στην υλοποίηση ενός MLP latent edge predictor, ο οποίος εκπαιδεύεται ώστε να προβλέπει τον χάρτη ακμών της παραγόμενης εικόνας σε κάθε βήμα της διαδικασίας αποθορυβοποίησης. Ο χάρτης αυτός αξιοποιείται εν συνεχεία για την καθοδήγηση των χωρικών περιγραμμάτων της εικόνας. Παρά τα σχετικά ικανοποιητικά αποτελέσματα που παρουσιάζει η εν λόγω μέθοδος, δε λαμβάνει υπόψιν τις χωρικές συσχετίσεις των pixels, ενώ συγχρόνως, απαιτεί ένα σημαντικό αριθμό βημάτων κατά τη διαδικασία της αποθορυβοποίησης, με αποτέλεσμα να καθίσταται ιδιαιτέρως χρονοβόρα. Για την αντιμετώπιση των ανωτέρω περιορισμών, στα πλαίσια της παρούσας εργασίας προτείνεται ένα πλαίσιο καθοδήγησης, το οποίο βασίζεται στη χρήση ενός U-Net latent edge predictor, ο οποίος, λόγω της συνελικτικής του φύσης, είναι ικανός να αποτυπώνει αποτελεσματικά, τόσο τοπικά όσο και καθολικά χαρακτηριστικά, αντιμετωπίζοντας τις εισόδους ενιαία και όχι pixel-wise. Επιπρόσθετα, για την ενίσχυση της σθεναρότητας της όλης διαδικασίας, στο προτεινόμενο πλαίσιο προστίθεται και ένα δίκτυο απλοποίησης σκίτσων, το οποίο προσφέρει στο χρήστη τη δυνατότητα απλοποίησης των σκίτσων εισόδου. Τα πειραματικά αποτελέσματα, σε συνδυασμό με τη γνώμη των χρηστών, αποδεικνύουν ότι η χρήση του προτεινόμενου U-Net latent edge predictor οδηγεί σε πιο ρεαλιστικές εικόνες, οι οποίες είναι καλύτερα ευθυγραμμισμένες με τα χωρικά περιγράμματα των σκίτσων αναφοράς, ενώ συγχρόνως, μειώνει δραστικά τα απαιτούμενα βήματα αποθορυβοποίησης και κατά συνέπεια το συνολικό χρόνο εκτέλεσης. | el |
heal.abstract | Sketch-guided text-to-image synthesis aims to obtain realistic and high fidelity images that adhere to the semantic content of the textual descriptions, while faithfully following the spatial outlines of the corresponding sketches. In recent years, diffusion models have demonstrated remarkable results, producing realistic and high-resolution images and thus exhibiting a clear superiority over GANs in text-to-image synthesis tasks. Despite their significant success, they still fall behind in the aforementioned task of sketch-guided image synthesis, as they try to bridge the gap between the abstract and schematic nature of freehand sketches and the rich details of real-world images. A recent approach tries to address this task by employing a per-pixel MLP latent edge predictor to predict the edge map of the generated image at each step of the inverse diffusion process. This edge map is then used to guide the image's spatial outlines towards the reference sketch. Despite yielding relatively satisfactory results, this method does not take into account spatial correlations between pixels and demands numerous denoising iterations to produce satisfying images, leading to time inefficiency. To overcome these limitations, we propose a framework that utilizes a U-Net latent edge predictor, which due to its convolutional nature is capable of effectively capturing both local and global features, treating inputs as whole rather than in a pixel-wise manner. Moreover, the proposed guidance framework is enhanced with the addition of a sketch simplification network, which offers the user the ability to preprocess and simplify input sketches. Experimental results in conjuction with user feedback show that the use of the proposed U-Net latent edge predictor leads to more realistic results, that are better aligned with the spatial outlines of the reference sketches, while significantly reducing the number of required denoising steps and consequently, the overall execution time. | en |
heal.advisorName | Βουλόδημος, Αθανάσιος | el |
heal.advisorName | Voulodimos, Athanasios | en |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 123 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: