| dc.contributor.author | Αραβανής, Τηλέμαχος
|
el |
| dc.contributor.author | Aravanis, Tilemachos
|
en |
| dc.date.accessioned | 2025-12-03T06:27:08Z | |
| dc.date.available | 2025-12-03T06:27:08Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62958 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30654 | |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα | * |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/3.0/gr/ | * |
| dc.subject | text-to-image generation | en |
| dc.subject | attention-based models | en |
| dc.subject | explainability | en |
| dc.subject | personalization | el |
| dc.subject | stylistic alignment | el |
| dc.subject | content leakage | el |
| dc.subject | δημιουργία εικόνων από κείμενο | el |
| dc.subject | επεξηγησιμότητα | el |
| dc.subject | εξατομίκευση | el |
| dc.subject | στυλιστική ευθυγράμμιση | el |
| dc.subject | διαρροή σημασιολογικού περιεχομένου | el |
| dc.title | Text to image stylistic alignment via explainability of attention | en |
| dc.contributor.department | Τομέας Σημάτων Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών και Επεξεργασίας Σήματος. | el |
| heal.type | bachelorThesis | |
| heal.classification | Machine Learning | en |
| heal.classification | Computer Vision | en |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-07-01 | |
| heal.abstract | Generative image models have seen significant advancements in the past few years, enabling the creation of highly realistic images from text prompts. However, while proficient in high-fidelity image generation and alignment with the text prompt, text-to-image generative models do not offer the desired controllability to the user via just text. For this reason, personalization algorithms have been developed within these models to allow users to guide image generation in ways that reflect specific preferences, making the output more tailored and meaningful. More specifically, an envisioned research direction is the rendition of images that share the same visual interpretation of a text-specified style. Recent state-of-the-art personalization techniques in generative text-to-image models aim to achieve this by finetuning the model's backbone using a set of images that share common visual stylistic elements. To address the high computational cost associated with this optimization, more recent methods utilize the attention layers of the model during batched inference to transfer stylistic visual elements from a reference image to others within the batch. However, these stylistic alignment approaches often fail to effectively separate semantic content from stylistic elements, leading to content leakage from the reference image, due to the uniform application across instances. We contend that the inherent variability in text-to-image models, stemming from input prompts and noise, necessitates an adaptive approach within these style alignment methods. To address this challenge, we exploit the explainability of the attention mechanism and propose a novel method that mitigates content leakage in a semantically coherent manner within the context of attention-based style alignment, while preserving stylistic consistency. Furthermore, to enhance adaptivity, we introduce a content leakage localization process during inference, allowing the tuning of the stylistic alignment process to faithfully transfer the desired style. Our method’s evaluation across diverse image objects and styles, demonstrates a significant improvement compared to state-of-the-art style alignment methods, removing the undesired effect of content leakage, while maintaining the desired stylistic alignment. | en |
| heal.abstract | Τα παραγωγικά μοντέλα εικόνας έχουν σημειώσει σημαντικές εξελίξεις τα τελευταία χρόνια, επιτρέποντας τη δημιουργία ρεαλιστικών εικόνων από κειμενικές εντολές. Ωστόσο, παρά την ικανότητά τους να δημιουργούν εικόνες υψηλής ποιότητας και να ευθυγραμμίζονται με την εντολή κειμένου, τα μοντέλα κειμένου σε εικόνα δεν προσφέρουν την επιθυμητή δυνατότητα ελέγχου στον χρήστη αποκλειστικά μέσω του κειμένου. Για τον λόγο αυτό, έχουν αναπτυχθεί αλγόριθμοι εξατομίκευσης των μοντέλων αυτών, προκειμένου να επιτρέψουν στους χρήστες να καθοδηγούν τη δημιουργία εικόνων με τρόπους που αντικατοπτρίζουν συγκεκριμένες προτιμήσεις, καθιστώντας το αποτέλεσμα πιο ουσιαστικό. Πιο συγκεκριμένα, μία ερευνητική κατεύθυνση αποσκοπεί στη δημιουργία εικόνων που μοιράζονται την ίδια οπτική ερμηνεία ενός στυλ, όπως αυτό προσδιορίζεται από το κείμενο. Πρόσφατες τεχνικές εξατομίκευσης προσεγγίζουν το συγκεκριμένο πρόβλημα με την προσαρμογή του μοντέλου χρησιμοποιώντας ένα σύνολο εικόνων που μοιράζονται κοινά οπτικά στυλιστικά στοιχεία. Για να αντιμετωπιστεί το υψηλό υπολογιστικό κόστος που σχετίζεται με αυτή τη βελτιστοποίηση, πιο πρόσφατες μέθοδοι αξιοποιούν τα επίπεδα προσοχής του μοντέλου κατά τη διαδικασία παραγωγής εικόνας για να μεταφέρουν στυλιστικά στοιχεία από μια εικόνα αναφοράς σε άλλες. Ωστόσο, αυτές οι προσεγγίσεις στυλιστικής ευθυγράμμισης συχνά αποτυγχάνουν να διαχωρίσουν αποτελεσματικά το σημασιολογικό περιεχόμενο από τα στυλιστικά στοιχεία, οδηγώντας σε διαρροή σημασιολογικού περιεχομένου από την εικόνα αναφοράς στις εικόνες στόχου. Υποστηρίζουμε ότι η εγγενής μεταβλητότητα στα μοντέλα κειμένου σε εικόνα, που προκύπτει από τις κειμενικές εντολές και τον θόρυβο στην είσοδό τους, απαιτεί μια προσαρμοστική προσέγγιση σε αυτές τις μεθόδους στυλιστικής ευθυγράμμισης. Για την αντιμετώπιση αυτής της πρόκλησης, αξιοποιούμε την επεξηγησιμότητα του μηχανισμού προσοχής και προτείνουμε μια νέα μέθοδο που μετριάζει τη διαρροή σημασιολογικού περιεχομένου στο πλαίσιο της ευθυγράμμισης στυλ που βασίζεται στην προσοχή, διατηρώντας παράλληλα τη στυλιστική συνέπεια. Επιπλέον, εισάγουμε μια διαδικασία εντοπισμού της διαρροής σημασιολογικού περιεχομένου, επιτρέποντας την προσαρμοστική ρύθμιση της διαδικασίας στυλιστικής ευθυγράμμισης ώστε να μεταφέρει μόνο το επιθυμητό στυλ. Η αξιολόγηση της μεθόδου μας σε διαφορετικά αντικείμενα εικόνας και στυλ, δείχνει σημαντική βελτίωση σε σύγκριση με τις σύγχρονες μεθόδους στυλιστικής ευθυγράμμισης, αφαιρώντας το ανεπιθύμητο αποτέλεσμα της διαρροής σημασιολογικού περιεχομένου και διατηρώντας την επιθυμητή στυλιστική ευθυγράμμιση. | el |
| heal.advisorName | Μαραγκός, Πέτρος | |
| heal.committeeMemberName | Ροντογιάννης, Αθανάσιος | el |
| heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
| heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων | el |
| heal.academicPublisherID | ntua | |
| heal.numberOfPages | 116 | |
| heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: