HEAL DSpace

Language-based Interpretation of Generative Models

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κούτρης, Αριστοτέλης el
dc.contributor.author Koutris, Aristotelis en
dc.date.accessioned 2023-04-24T09:55:26Z
dc.date.available 2023-04-24T09:55:26Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57558
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25255
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Text-Guided Image Generation en
dc.subject Latent Space en
dc.subject Image Manipulation en
dc.subject Flow-based Generative Models en
dc.subject Diffusion Models en
dc.subject Σύνθεση Εικόνας απο Κείμενο el
dc.subject Λανθάνων Χώρος el
dc.subject Χειρισμός Εικόνων el
dc.subject Γεννητικά Μοντέλα Ροής el
dc.subject Μοντέλα Διάχυσης el
dc.title Language-based Interpretation of Generative Models en
dc.title Ερμηνεία γεννητικών μοντέλων με την βοήθεια φυσικής γλώσσας el
heal.type bachelorThesis
heal.classification Artificial Intelligence en
heal.classification Τεχνητή Νοημοσύνη el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-03-13
heal.abstract Generative models have shown remarkable progress in generating realistic images and are being increasingly used in a variety of applications. However, interpreting and understanding these models remains a challenge. Two main topics have been addressed in this thesis to tackle this problem. The first topic focuses on Glow, a flow-based generative model with exact latent-variable inference and log-likelihood. The key advantages of Glow are its invertibility and the ability to perform easy image manipulation through its latent space. This thesis proposes a novel framework for interpretable latent direction discovery in the latent space of Glow, by leveraging the text-guided image generation and manipulation capabilities of StyleCLIP. The framework is compared with existing state-of-the-art supervised and unsupervised latent direction discovery methods. Secondly, motivated by the rapid growth of text-guided image generation and the effectiveness of diffusion models such as Stable Diffusion, this thesis proposes a systematic method to evaluate Stable Diffusion's ability to model and generate images from closely related concepts using WordNet. This study enables the detection of potential biases towards different areas of the distribution modelled by the generative model. Overall, this thesis aims to provide a better understanding of generative models by proposing novel frameworks and evaluation methodologies for their interpretability and effectiveness. These contributions can have important implications for improving the applicability and reliability of generative models in various fields. en
heal.abstract Τα γεννητικά μοντέλα έχουν επιδείξει σημαντική πρόοδο στη δημιουργία ρεαλιστικών εικόνων και χρησιμοποιούνται όλο και περισσότερο σε μια ποικιλία εφαρμογών. Ωστόσο, η ερμηνεία και η κατανόηση αυτών των μοντέλων παραμένει μια πρόκληση. Η εργασία αυτή πραγματεύεται δύο κύρια θέματα για την αντιμετώπιση του προβλήματος αυτού. Το πρώτο θέμα επικεντρώνεται στον σχεδιασμό μια μεθόδου για την ανακάλυψη ερμηνεύσιμων κατευθύνσεων στον λανθάνοντα χώρο του Glow. Το Glow είναι ένα γεννητικό μοντέλο ροής το οποίο διαθέτει έναν υψηλά αποσυσχετισμένο λανθάνοντα χώρο, ο οποίος κωδικοποιεί τα σημασιολογικά χαρακτηριστικά μιας εικόνας σε ανεξάρτητές λανθάνουσες μεταβλητές. Η ιδιότητα του αυτή, σε συνδυασμό με το ότι η αρχιτεκτονική του είναι αντιστρέψιμη, το καθιστούν ένα πολύ χρήσιμο μοντέλο για την τροποποίηση εικόνων μέσω της λανθάνουσας αναπαράστασης τους. Η μέθοδος που προτείνουμε, επιτρέπει την εύρεση λανθανουσών κατευθύνσεων που αντιστοιχούν σε ένα σημασιολογικό χαρακτηριστικό της εικόνας, με βάση μία κειμενική περιγραφή που το περιγράφει. Η καθοδήγηση της μεθόδου από φυσική γλώσσα της δίνει μεγαλύτερη ευελιξία σε σχέση με άλλες επιβλεπόμενες ή μη επιβλεπόμενες μεθόδους εξερεύνησης του λανθάνοντος χώρου με τις οποίες συγκρίνουμε τα αποτελέσματα μας. Με αφορμή την μεγάλη άνοδο των μοντέλων σύνθεσης εικόνας από κείμενο και την αποτελεσματικότητα των μοντέλων διάχυσης στον τομέα αυτό, προτείνουμε επίσης, μια μέθοδο για την συστηματική αξιολόγηση του Stable Diffusion. Πιο συγκεκριμένα, συνθέτοτουμε εικόνες από ένα σύνολο ιεραρχικά συνδεδεμένων εννοιών του WordNet, και εξετάζουμε σε ποιό βαθμό η ιεραρχία των εννοιών αποτυπώνεται στις κατανομές εικόνων που συνθέσαμε. Με τον τρόπο αυτό ποσοτικοποιούμε την δυνατότητα του Stable Diffusion να διαφοροποιεί μεταξύ στενά συνδεδεμένων εννοιών, και ανιχνεύουμε τυχόν προκαταλήψεις που υπάρχουν υπέρ συγκεκριμένων εννοιών. el
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 62 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα