Μοντέλα Διάχυσης με Εφαρμογές στην Αναπαράσταση Προσώπου
και Σύνθεση Ομιλούντος Προσώπου

Πίκουλης, Ιωάννης; Pikoulis, Ioannis

dc.contributor.author	Πίκουλης, Ιωάννης	el
dc.contributor.author	Pikoulis, Ioannis	en
dc.date.accessioned	2023-09-11T06:35:01Z
dc.date.available	2023-09-11T06:35:01Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/58040
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25737
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.)	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	Μοντέλα διάχυσης	el
dc.subject	Χειραγώγηση συναισθημάτων	el
dc.subject	Ανάγνωση χειλιών	el
dc.subject	Καθοδήγηση CLIP	el
dc.subject	Φωτορεαλισμός	el
dc.subject	Diffusion models	en
dc.subject	Emotion manipulation	en
dc.subject	Lip reading	en
dc.subject	CLIP guidance	en
dc.subject	Photorealism	en
dc.title	Μοντέλα Διάχυσης με Εφαρμογές στην Αναπαράσταση Προσώπου και Σύνθεση Ομιλούντος Προσώπου	el
dc.title	Diffusion Models with Applications in Face Reenactment and Talking Face Synthesis	en
heal.type	masterThesis
heal.classification	Deep Generative Modeling	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-07-12
heal.abstract	As generative adversarial networks (GANs) have proven capable of generating high-quality samples, they managed to draw a lot of attention in the last 10 years. But recently, even more potent generative methods, like diffusion models (DMs) have emerged, posing a threat to the dominance of GANs in the production of synthetic data. DMs are quickly finding use in both low-level and high-level vision tasks because of their incredible generative capabilities, including but not limited to image denoising, image super-resolution, semantic segmentation, semantic image synthesis and image-to-image translation. In this thesis we explicitly focus on image-to-image translation and more specifically on facial expression manipulation (also known as face reenactment) on the basis of “in-the-wild” images. Photo-realistic face reenactment can be used for entertainment purposes, human-computer interactions, and facial animations, among other things. This area has been attracting considerable attention both from academic and industrial research communities and has produced stunning outcomes that broaden the scope of inventive image editing, and content creation. Moreover we delve into talking face synthesis, a newly emerging application of DMs that also enjoys a wide range of downstream uses, such as teleconferencing, movie dubbing and virtual assistants. More specifically we: (a) Conduct experiments relative to face reenactment on the basis of the fully uncontrolled, in-the-wild settings of the AffectNet database. Experiments for talking face synthesis were performed on more controlled/lab settings, on the basis of the MEAD dataset, and only considering video sequences that depicted frontal face views. (b) To the best of our knowledge, our work on AffectNet is the first fully-fledged set of experiments conducted on the aforementioned dataset in the context of diffusion-based facial reenactment. (c) We leveraged CLIP pre-trained models with the aim of better guiding the underlying emotional manipulation processes. We drew inspiration from and extended the DiffusionCLIP framework. (d) We compared our method with SOTA GAN-based models, surpassing the latter in terms of image quality and subject identity preservation, while achieving competitive results regarding emotion translation accuracy. (e) To the best of our knowledge, we propose the first proper lip reading-based finetuning methodology, in the context of talking-face synthesis with Latent Diffusion Models.	en
heal.abstract	Καθώς τα Παραγωγικά Αντιπαλικά Δίκτυα (ΠΑΔ) έχουν αποδειχθεί ικανά να παράγουν δείγματα υψηλής ποιότητας, κατάφεραν να τραβήξουν μεγάλη προσοχή από την ευρεία επιστημονική κοινότητα τα τελευταία 10 χρόνια. Όμως πρόσφατα, εμφανίστηκαν ακόμη πιο ισχυρά και ικανά παραγωγικά μοντέλα, όπως τα μοντέλα διάχυσης (ΜΔ), που αποτελούν απειλή για την κυριαρχία των ΠΑΔ στην παραγωγή συνθετικών δεδομένων. Τα ΜΔ βρίσκουν γρήγορα χρήση σε εφαρμογές της όρασης υπολογιστών όπως: αποθορυβοποίηση εικόνας, υπερ-ανάλυση εικόνας, σημασιολογική τμηματοποίηση, σημασιολογική σύνθεση εικόνας καθώς και μετάφραση εικόνας-σε-εικόνα. Σε αυτή τη διατριβή εστιάζουμε ρητά στη μετάφραση εικόνας-σε-εικόνα και πιο συγκεκριμένα στη χειραγώγηση εκφράσεων του προσώπου (γνωστή και ως αναπαράσταση προσώπου). Η φωτορεαλιστική αναπαράσταση προσώπου μπορεί, μεταξύ άλλων, να χρησιμοποιηθεί για ψυχαγωγικούς σκοπούς, αλληλεπιδράσεις ανθρώπου-υπολογιστή και κινούμενα σχέδια προσώπου. Αυτός ο τομέας έχει προσελκύσει σημαντική προσοχή τόσο από τις ακαδημαϊκές όσο και από τις βιομηχανικές-ερευνητικές κοινότητες και έχει παράξει εκπληκτικά αποτελέσματα που διευρύνουν το εύρος της εφευρετικής επεξεργασίας εικόνας και της δημιουργίας περιεχομένου. Επιπλέον, εμβαθύνουμε στη σύνθεση ομιλούντων προσώπων, μια πρόσφατα αναδυόμενη εφαρμογή των ΜΔ που απολαμβάνει επίσης ένα ευρύ φάσμα μεταγενέστερων χρήσεων, όπως τις τηλεδιασκέψεις, μεταγλώττιση ταινιών και εικονικούς βοηθούς. Πιο συγκεκριμένα: (α) Πραγματοποιήσαμε πειράματα σχετικά με την αναπαράσταση προσώπου με βάση τις πλήρως ανεξέλεγκτες συνθήκες της βάσης δεδομένων AffectNet. Πειράματα για τη σύνθεση ομιλούντος προσώπου πραγματοποιήθηκαν σε πιο ελεγχόμενες/εργαστηριακές προδιαγραφές, με βάση το σύνολο δεδομένων MEAD, και λαμβάνοντας υπόψη μόνο τις ακολουθίες βίντεο που απεικόνιζαν μετωπικές όψεις προσώπου. (β) Από όσο γνωρίζουμε, η εργασία μας στην AffectNet αποτελεί το πρώτο ολοκληρωμένο σύνολο πειραμάτων που διεξήχθη στο προαναφερθέν σύνολο δεδομένων στο πλαίσιο της αναπαράστασης προσώπου βάσει ΜΔ. (γ) Αξιοποιήσαμε προεκπαιδευμένα μοντέλα CLIP με στόχο την καλύτερη καθοδήγηση των υποκείμενων διαδικασιών συναισθηματικής χειραγώγησης, εμπνεόμενοι από και επεκτείνοντας το μοντέλο DiffusionCLIP. (δ) Συγκρίναμε τη μέθοδό μας με την τελευταία λέξη της τεχνολογίας όσον αφορά ΠΑΔ, ξεπερνώντας το τελευταία ως προς την ποιότητα εικόνας και τη διατήρηση της ταυτότητας των υποκείμενων εικονιζόμενων προσώπων, επιτυγχάνοντας παράλληλα ανταγωνιστικά αποτελέσματα όσον αφορά την ακρίβεια μετάφρασης των συναισθημάτων. (ε) Από όσο γνωρίζουμε, προτείνουμε την πρώτη έγκυρη μεθοδολογία προσαρμογής που βασίζεται στην ανάγνωση των χειλιών, στο πλαίσιο της σύνθεσης ομιλούντος προσώπου με Μοντέλα Λανθάνουσας Διάχυσης.	el
heal.advisorName	Μαραγκός, Πέτρος
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	113 σ.	el
heal.fullTextAvailability	false