Text to image stylistic alignment via explainability of attention

Αραβανής, Τηλέμαχος; Aravanis, Tilemachos

dc.contributor.author	Αραβανής, Τηλέμαχος	el
dc.contributor.author	Aravanis, Tilemachos	en
dc.date.accessioned	2025-12-03T06:27:08Z
dc.date.available	2025-12-03T06:27:08Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/62958
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.30654
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	text-to-image generation	en
dc.subject	attention-based models	en
dc.subject	explainability	en
dc.subject	personalization	el
dc.subject	stylistic alignment	el
dc.subject	content leakage	el
dc.subject	δημιουργία εικόνων από κείμενο	el
dc.subject	επεξηγησιμότητα	el
dc.subject	εξατομίκευση	el
dc.subject	στυλιστική ευθυγράμμιση	el
dc.subject	διαρροή σημασιολογικού περιεχομένου	el
dc.title	Text to image stylistic alignment via explainability of attention	en
dc.contributor.department	Τομέας Σημάτων Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών και Επεξεργασίας Σήματος.	el
heal.type	bachelorThesis
heal.classification	Machine Learning	en
heal.classification	Computer Vision	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-07-01
heal.abstract	Generative image models have seen significant advancements in the past few years, enabling the creation of highly realistic images from text prompts. However, while proficient in high-fidelity image generation and alignment with the text prompt, text-to-image generative models do not offer the desired controllability to the user via just text. For this reason, personalization algorithms have been developed within these models to allow users to guide image generation in ways that reflect specific preferences, making the output more tailored and meaningful. More specifically, an envisioned research direction is the rendition of images that share the same visual interpretation of a text-specified style. Recent state-of-the-art personalization techniques in generative text-to-image models aim to achieve this by finetuning the model's backbone using a set of images that share common visual stylistic elements. To address the high computational cost associated with this optimization, more recent methods utilize the attention layers of the model during batched inference to transfer stylistic visual elements from a reference image to others within the batch. However, these stylistic alignment approaches often fail to effectively separate semantic content from stylistic elements, leading to content leakage from the reference image, due to the uniform application across instances. We contend that the inherent variability in text-to-image models, stemming from input prompts and noise, necessitates an adaptive approach within these style alignment methods. To address this challenge, we exploit the explainability of the attention mechanism and propose a novel method that mitigates content leakage in a semantically coherent manner within the context of attention-based style alignment, while preserving stylistic consistency. Furthermore, to enhance adaptivity, we introduce a content leakage localization process during inference, allowing the tuning of the stylistic alignment process to faithfully transfer the desired style. Our method’s evaluation across diverse image objects and styles, demonstrates a significant improvement compared to state-of-the-art style alignment methods, removing the undesired effect of content leakage, while maintaining the desired stylistic alignment.	en
heal.abstract	Τα παραγωγικά μοντέλα εικόνας έχουν σημειώσει σημαντικές εξελίξεις τα τελευταία χρόνια, επιτρέποντας τη δημιουργία ρεαλιστικών εικόνων από κειμενικές εντολές. Ωστόσο, παρά την ικανότητά τους να δημιουργούν εικόνες υψηλής ποιότητας και να ευθυγραμμίζονται με την εντολή κειμένου, τα μοντέλα κειμένου σε εικόνα δεν προσφέρουν την επιθυμητή δυνατότητα ελέγχου στον χρήστη αποκλειστικά μέσω του κειμένου. Για τον λόγο αυτό, έχουν αναπτυχθεί αλγόριθμοι εξατομίκευσης των μοντέλων αυτών, προκειμένου να επιτρέψουν στους χρήστες να καθοδηγούν τη δημιουργία εικόνων με τρόπους που αντικατοπτρίζουν συγκεκριμένες προτιμήσεις, καθιστώντας το αποτέλεσμα πιο ουσιαστικό. Πιο συγκεκριμένα, μία ερευνητική κατεύθυνση αποσκοπεί στη δημιουργία εικόνων που μοιράζονται την ίδια οπτική ερμηνεία ενός στυλ, όπως αυτό προσδιορίζεται από το κείμενο. Πρόσφατες τεχνικές εξατομίκευσης προσεγγίζουν το συγκεκριμένο πρόβλημα με την προσαρμογή του μοντέλου χρησιμοποιώντας ένα σύνολο εικόνων που μοιράζονται κοινά οπτικά στυλιστικά στοιχεία. Για να αντιμετωπιστεί το υψηλό υπολογιστικό κόστος που σχετίζεται με αυτή τη βελτιστοποίηση, πιο πρόσφατες μέθοδοι αξιοποιούν τα επίπεδα προσοχής του μοντέλου κατά τη διαδικασία παραγωγής εικόνας για να μεταφέρουν στυλιστικά στοιχεία από μια εικόνα αναφοράς σε άλλες. Ωστόσο, αυτές οι προσεγγίσεις στυλιστικής ευθυγράμμισης συχνά αποτυγχάνουν να διαχωρίσουν αποτελεσματικά το σημασιολογικό περιεχόμενο από τα στυλιστικά στοιχεία, οδηγώντας σε διαρροή σημασιολογικού περιεχομένου από την εικόνα αναφοράς στις εικόνες στόχου. Υποστηρίζουμε ότι η εγγενής μεταβλητότητα στα μοντέλα κειμένου σε εικόνα, που προκύπτει από τις κειμενικές εντολές και τον θόρυβο στην είσοδό τους, απαιτεί μια προσαρμοστική προσέγγιση σε αυτές τις μεθόδους στυλιστικής ευθυγράμμισης. Για την αντιμετώπιση αυτής της πρόκλησης, αξιοποιούμε την επεξηγησιμότητα του μηχανισμού προσοχής και προτείνουμε μια νέα μέθοδο που μετριάζει τη διαρροή σημασιολογικού περιεχομένου στο πλαίσιο της ευθυγράμμισης στυλ που βασίζεται στην προσοχή, διατηρώντας παράλληλα τη στυλιστική συνέπεια. Επιπλέον, εισάγουμε μια διαδικασία εντοπισμού της διαρροής σημασιολογικού περιεχομένου, επιτρέποντας την προσαρμοστική ρύθμιση της διαδικασίας στυλιστικής ευθυγράμμισης ώστε να μεταφέρει μόνο το επιθυμητό στυλ. Η αξιολόγηση της μεθόδου μας σε διαφορετικά αντικείμενα εικόνας και στυλ, δείχνει σημαντική βελτίωση σε σύγκριση με τις σύγχρονες μεθόδους στυλιστικής ευθυγράμμισης, αφαιρώντας το ανεπιθύμητο αποτέλεσμα της διαρροής σημασιολογικού περιεχομένου και διατηρώντας την επιθυμητή στυλιστική ευθυγράμμιση.	el
heal.advisorName	Μαραγκός, Πέτρος
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	116
heal.fullTextAvailability	false