dc.contributor.author | Κούτρης, Αριστοτέλης | el |
dc.contributor.author | Koutris, Aristotelis | en |
dc.date.accessioned | 2023-04-24T09:55:26Z | |
dc.date.available | 2023-04-24T09:55:26Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/57558 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.25255 | |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Text-Guided Image Generation | en |
dc.subject | Latent Space | en |
dc.subject | Image Manipulation | en |
dc.subject | Flow-based Generative Models | en |
dc.subject | Diffusion Models | en |
dc.subject | Σύνθεση Εικόνας απο Κείμενο | el |
dc.subject | Λανθάνων Χώρος | el |
dc.subject | Χειρισμός Εικόνων | el |
dc.subject | Γεννητικά Μοντέλα Ροής | el |
dc.subject | Μοντέλα Διάχυσης | el |
dc.title | Language-based Interpretation of Generative Models | en |
dc.title | Ερμηνεία γεννητικών μοντέλων με την βοήθεια φυσικής γλώσσας | el |
heal.type | bachelorThesis | |
heal.classification | Artificial Intelligence | en |
heal.classification | Τεχνητή Νοημοσύνη | el |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-03-13 | |
heal.abstract | Generative models have shown remarkable progress in generating realistic images and are being increasingly used in a variety of applications. However, interpreting and understanding these models remains a challenge. Two main topics have been addressed in this thesis to tackle this problem. The first topic focuses on Glow, a flow-based generative model with exact latent-variable inference and log-likelihood. The key advantages of Glow are its invertibility and the ability to perform easy image manipulation through its latent space. This thesis proposes a novel framework for interpretable latent direction discovery in the latent space of Glow, by leveraging the text-guided image generation and manipulation capabilities of StyleCLIP. The framework is compared with existing state-of-the-art supervised and unsupervised latent direction discovery methods. Secondly, motivated by the rapid growth of text-guided image generation and the effectiveness of diffusion models such as Stable Diffusion, this thesis proposes a systematic method to evaluate Stable Diffusion's ability to model and generate images from closely related concepts using WordNet. This study enables the detection of potential biases towards different areas of the distribution modelled by the generative model. Overall, this thesis aims to provide a better understanding of generative models by proposing novel frameworks and evaluation methodologies for their interpretability and effectiveness. These contributions can have important implications for improving the applicability and reliability of generative models in various fields. | en |
heal.abstract | Τα γεννητικά μοντέλα έχουν επιδείξει σημαντική πρόοδο στη δημιουργία ρεαλιστικών εικόνων και χρησιμοποιούνται όλο και περισσότερο σε μια ποικιλία εφαρμογών. Ωστόσο, η ερμηνεία και η κατανόηση αυτών των μοντέλων παραμένει μια πρόκληση. Η εργασία αυτή πραγματεύεται δύο κύρια θέματα για την αντιμετώπιση του προβλήματος αυτού. Το πρώτο θέμα επικεντρώνεται στον σχεδιασμό μια μεθόδου για την ανακάλυψη ερμηνεύσιμων κατευθύνσεων στον λανθάνοντα χώρο του Glow. Το Glow είναι ένα γεννητικό μοντέλο ροής το οποίο διαθέτει έναν υψηλά αποσυσχετισμένο λανθάνοντα χώρο, ο οποίος κωδικοποιεί τα σημασιολογικά χαρακτηριστικά μιας εικόνας σε ανεξάρτητές λανθάνουσες μεταβλητές. Η ιδιότητα του αυτή, σε συνδυασμό με το ότι η αρχιτεκτονική του είναι αντιστρέψιμη, το καθιστούν ένα πολύ χρήσιμο μοντέλο για την τροποποίηση εικόνων μέσω της λανθάνουσας αναπαράστασης τους. Η μέθοδος που προτείνουμε, επιτρέπει την εύρεση λανθανουσών κατευθύνσεων που αντιστοιχούν σε ένα σημασιολογικό χαρακτηριστικό της εικόνας, με βάση μία κειμενική περιγραφή που το περιγράφει. Η καθοδήγηση της μεθόδου από φυσική γλώσσα της δίνει μεγαλύτερη ευελιξία σε σχέση με άλλες επιβλεπόμενες ή μη επιβλεπόμενες μεθόδους εξερεύνησης του λανθάνοντος χώρου με τις οποίες συγκρίνουμε τα αποτελέσματα μας. Με αφορμή την μεγάλη άνοδο των μοντέλων σύνθεσης εικόνας από κείμενο και την αποτελεσματικότητα των μοντέλων διάχυσης στον τομέα αυτό, προτείνουμε επίσης, μια μέθοδο για την συστηματική αξιολόγηση του Stable Diffusion. Πιο συγκεκριμένα, συνθέτοτουμε εικόνες από ένα σύνολο ιεραρχικά συνδεδεμένων εννοιών του WordNet, και εξετάζουμε σε ποιό βαθμό η ιεραρχία των εννοιών αποτυπώνεται στις κατανομές εικόνων που συνθέσαμε. Με τον τρόπο αυτό ποσοτικοποιούμε την δυνατότητα του Stable Diffusion να διαφοροποιεί μεταξύ στενά συνδεδεμένων εννοιών, και ανιχνεύουμε τυχόν προκαταλήψεις που υπάρχουν υπέρ συγκεκριμένων εννοιών. | el |
heal.advisorName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Βουλόδημος, Αθανάσιος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 62 σ. | el |
heal.fullTextAvailability | false |
The following license files are associated with this item: