HEAL DSpace

Text to image stylistic alignment via explainability of attention

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Αραβανής, Τηλέμαχος el
dc.contributor.author Aravanis, Tilemachos en
dc.date.accessioned 2025-12-03T06:27:08Z
dc.date.available 2025-12-03T06:27:08Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62958
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30654
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject text-to-image generation en
dc.subject attention-based models en
dc.subject explainability en
dc.subject personalization el
dc.subject stylistic alignment el
dc.subject content leakage el
dc.subject δημιουργία εικόνων από κείμενο el
dc.subject επεξηγησιμότητα el
dc.subject εξατομίκευση el
dc.subject στυλιστική ευθυγράμμιση el
dc.subject διαρροή σημασιολογικού περιεχομένου el
dc.title Text to image stylistic alignment via explainability of attention en
dc.contributor.department Τομέας Σημάτων Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών και Επεξεργασίας Σήματος. el
heal.type bachelorThesis
heal.classification Machine Learning en
heal.classification Computer Vision en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-07-01
heal.abstract Generative image models have seen significant advancements in the past few years, enabling the creation of highly realistic images from text prompts. However, while proficient in high-fidelity image generation and alignment with the text prompt, text-to-image generative models do not offer the desired controllability to the user via just text. For this reason, personalization algorithms have been developed within these models to allow users to guide image generation in ways that reflect specific preferences, making the output more tailored and meaningful. More specifically, an envisioned research direction is the rendition of images that share the same visual interpretation of a text-specified style. Recent state-of-the-art personalization techniques in generative text-to-image models aim to achieve this by finetuning the model's backbone using a set of images that share common visual stylistic elements. To address the high computational cost associated with this optimization, more recent methods utilize the attention layers of the model during batched inference to transfer stylistic visual elements from a reference image to others within the batch. However, these stylistic alignment approaches often fail to effectively separate semantic content from stylistic elements, leading to content leakage from the reference image, due to the uniform application across instances. We contend that the inherent variability in text-to-image models, stemming from input prompts and noise, necessitates an adaptive approach within these style alignment methods. To address this challenge, we exploit the explainability of the attention mechanism and propose a novel method that mitigates content leakage in a semantically coherent manner within the context of attention-based style alignment, while preserving stylistic consistency. Furthermore, to enhance adaptivity, we introduce a content leakage localization process during inference, allowing the tuning of the stylistic alignment process to faithfully transfer the desired style. Our method’s evaluation across diverse image objects and styles, demonstrates a significant improvement compared to state-of-the-art style alignment methods, removing the undesired effect of content leakage, while maintaining the desired stylistic alignment. en
heal.abstract Τα παραγωγικά μοντέλα εικόνας έχουν σημειώσει σημαντικές εξελίξεις τα τελευταία χρόνια, επιτρέποντας τη δημιουργία ρεαλιστικών εικόνων από κειμενικές εντολές. Ωστόσο, παρά την ικανότητά τους να δημιουργούν εικόνες υψηλής ποιότητας και να ευθυγραμμίζονται με την εντολή κειμένου, τα μοντέλα κειμένου σε εικόνα δεν προσφέρουν την επιθυμητή δυνατότητα ελέγχου στον χρήστη αποκλειστικά μέσω του κειμένου. Για τον λόγο αυτό, έχουν αναπτυχθεί αλγόριθμοι εξατομίκευσης των μοντέλων αυτών, προκειμένου να επιτρέψουν στους χρήστες να καθοδηγούν τη δημιουργία εικόνων με τρόπους που αντικατοπτρίζουν συγκεκριμένες προτιμήσεις, καθιστώντας το αποτέλεσμα πιο ουσιαστικό. Πιο συγκεκριμένα, μία ερευνητική κατεύθυνση αποσκοπεί στη δημιουργία εικόνων που μοιράζονται την ίδια οπτική ερμηνεία ενός στυλ, όπως αυτό προσδιορίζεται από το κείμενο. Πρόσφατες τεχνικές εξατομίκευσης προσεγγίζουν το συγκεκριμένο πρόβλημα με την προσαρμογή του μοντέλου χρησιμοποιώντας ένα σύνολο εικόνων που μοιράζονται κοινά οπτικά στυλιστικά στοιχεία. Για να αντιμετωπιστεί το υψηλό υπολογιστικό κόστος που σχετίζεται με αυτή τη βελτιστοποίηση, πιο πρόσφατες μέθοδοι αξιοποιούν τα επίπεδα προσοχής του μοντέλου κατά τη διαδικασία παραγωγής εικόνας για να μεταφέρουν στυλιστικά στοιχεία από μια εικόνα αναφοράς σε άλλες. Ωστόσο, αυτές οι προσεγγίσεις στυλιστικής ευθυγράμμισης συχνά αποτυγχάνουν να διαχωρίσουν αποτελεσματικά το σημασιολογικό περιεχόμενο από τα στυλιστικά στοιχεία, οδηγώντας σε διαρροή σημασιολογικού περιεχομένου από την εικόνα αναφοράς στις εικόνες στόχου. Υποστηρίζουμε ότι η εγγενής μεταβλητότητα στα μοντέλα κειμένου σε εικόνα, που προκύπτει από τις κειμενικές εντολές και τον θόρυβο στην είσοδό τους, απαιτεί μια προσαρμοστική προσέγγιση σε αυτές τις μεθόδους στυλιστικής ευθυγράμμισης. Για την αντιμετώπιση αυτής της πρόκλησης, αξιοποιούμε την επεξηγησιμότητα του μηχανισμού προσοχής και προτείνουμε μια νέα μέθοδο που μετριάζει τη διαρροή σημασιολογικού περιεχομένου στο πλαίσιο της ευθυγράμμισης στυλ που βασίζεται στην προσοχή, διατηρώντας παράλληλα τη στυλιστική συνέπεια. Επιπλέον, εισάγουμε μια διαδικασία εντοπισμού της διαρροής σημασιολογικού περιεχομένου, επιτρέποντας την προσαρμοστική ρύθμιση της διαδικασίας στυλιστικής ευθυγράμμισης ώστε να μεταφέρει μόνο το επιθυμητό στυλ. Η αξιολόγηση της μεθόδου μας σε διαφορετικά αντικείμενα εικόνας και στυλ, δείχνει σημαντική βελτίωση σε σύγκριση με τις σύγχρονες μεθόδους στυλιστικής ευθυγράμμισης, αφαιρώντας το ανεπιθύμητο αποτέλεσμα της διαρροής σημασιολογικού περιεχομένου και διατηρώντας την επιθυμητή στυλιστική ευθυγράμμιση. el
heal.advisorName Μαραγκός, Πέτρος
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 116
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα