Language-based Interpretation of Generative Models

Κούτρης, Αριστοτέλης; Koutris, Aristotelis

dc.contributor.author	Κούτρης, Αριστοτέλης	el
dc.contributor.author	Koutris, Aristotelis	en
dc.date.accessioned	2023-04-24T09:55:26Z
dc.date.available	2023-04-24T09:55:26Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/57558
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25255
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Text-Guided Image Generation	en
dc.subject	Latent Space	en
dc.subject	Image Manipulation	en
dc.subject	Flow-based Generative Models	en
dc.subject	Diffusion Models	en
dc.subject	Σύνθεση Εικόνας απο Κείμενο	el
dc.subject	Λανθάνων Χώρος	el
dc.subject	Χειρισμός Εικόνων	el
dc.subject	Γεννητικά Μοντέλα Ροής	el
dc.subject	Μοντέλα Διάχυσης	el
dc.title	Language-based Interpretation of Generative Models	en
dc.title	Ερμηνεία γεννητικών μοντέλων με την βοήθεια φυσικής γλώσσας	el
heal.type	bachelorThesis
heal.classification	Artificial Intelligence	en
heal.classification	Τεχνητή Νοημοσύνη	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-03-13
heal.abstract	Generative models have shown remarkable progress in generating realistic images and are being increasingly used in a variety of applications. However, interpreting and understanding these models remains a challenge. Two main topics have been addressed in this thesis to tackle this problem. The first topic focuses on Glow, a flow-based generative model with exact latent-variable inference and log-likelihood. The key advantages of Glow are its invertibility and the ability to perform easy image manipulation through its latent space. This thesis proposes a novel framework for interpretable latent direction discovery in the latent space of Glow, by leveraging the text-guided image generation and manipulation capabilities of StyleCLIP. The framework is compared with existing state-of-the-art supervised and unsupervised latent direction discovery methods. Secondly, motivated by the rapid growth of text-guided image generation and the effectiveness of diffusion models such as Stable Diffusion, this thesis proposes a systematic method to evaluate Stable Diffusion's ability to model and generate images from closely related concepts using WordNet. This study enables the detection of potential biases towards different areas of the distribution modelled by the generative model. Overall, this thesis aims to provide a better understanding of generative models by proposing novel frameworks and evaluation methodologies for their interpretability and effectiveness. These contributions can have important implications for improving the applicability and reliability of generative models in various fields.	en
heal.abstract	Τα γεννητικά μοντέλα έχουν επιδείξει σημαντική πρόοδο στη δημιουργία ρεαλιστικών εικόνων και χρησιμοποιούνται όλο και περισσότερο σε μια ποικιλία εφαρμογών. Ωστόσο, η ερμηνεία και η κατανόηση αυτών των μοντέλων παραμένει μια πρόκληση. Η εργασία αυτή πραγματεύεται δύο κύρια θέματα για την αντιμετώπιση του προβλήματος αυτού. Το πρώτο θέμα επικεντρώνεται στον σχεδιασμό μια μεθόδου για την ανακάλυψη ερμηνεύσιμων κατευθύνσεων στον λανθάνοντα χώρο του Glow. Το Glow είναι ένα γεννητικό μοντέλο ροής το οποίο διαθέτει έναν υψηλά αποσυσχετισμένο λανθάνοντα χώρο, ο οποίος κωδικοποιεί τα σημασιολογικά χαρακτηριστικά μιας εικόνας σε ανεξάρτητές λανθάνουσες μεταβλητές. Η ιδιότητα του αυτή, σε συνδυασμό με το ότι η αρχιτεκτονική του είναι αντιστρέψιμη, το καθιστούν ένα πολύ χρήσιμο μοντέλο για την τροποποίηση εικόνων μέσω της λανθάνουσας αναπαράστασης τους. Η μέθοδος που προτείνουμε, επιτρέπει την εύρεση λανθανουσών κατευθύνσεων που αντιστοιχούν σε ένα σημασιολογικό χαρακτηριστικό της εικόνας, με βάση μία κειμενική περιγραφή που το περιγράφει. Η καθοδήγηση της μεθόδου από φυσική γλώσσα της δίνει μεγαλύτερη ευελιξία σε σχέση με άλλες επιβλεπόμενες ή μη επιβλεπόμενες μεθόδους εξερεύνησης του λανθάνοντος χώρου με τις οποίες συγκρίνουμε τα αποτελέσματα μας. Με αφορμή την μεγάλη άνοδο των μοντέλων σύνθεσης εικόνας από κείμενο και την αποτελεσματικότητα των μοντέλων διάχυσης στον τομέα αυτό, προτείνουμε επίσης, μια μέθοδο για την συστηματική αξιολόγηση του Stable Diffusion. Πιο συγκεκριμένα, συνθέτοτουμε εικόνες από ένα σύνολο ιεραρχικά συνδεδεμένων εννοιών του WordNet, και εξετάζουμε σε ποιό βαθμό η ιεραρχία των εννοιών αποτυπώνεται στις κατανομές εικόνων που συνθέσαμε. Με τον τρόπο αυτό ποσοτικοποιούμε την δυνατότητα του Stable Diffusion να διαφοροποιεί μεταξύ στενά συνδεδεμένων εννοιών, και ανιχνεύουμε τυχόν προκαταλήψεις που υπάρχουν υπέρ συγκεκριμένων εννοιών.	el
heal.advisorName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	62 σ.	el
heal.fullTextAvailability	false