HEAL DSpace

Μοντέλα Διάχυσης με Εφαρμογές στην Αναπαράσταση Προσώπου και Σύνθεση Ομιλούντος Προσώπου

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πίκουλης, Ιωάννης el
dc.contributor.author Pikoulis, Ioannis en
dc.date.accessioned 2023-09-11T06:35:01Z
dc.date.available 2023-09-11T06:35:01Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58040
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25737
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc/3.0/gr/ *
dc.subject Μοντέλα διάχυσης el
dc.subject Χειραγώγηση συναισθημάτων el
dc.subject Ανάγνωση χειλιών el
dc.subject Καθοδήγηση CLIP el
dc.subject Φωτορεαλισμός el
dc.subject Diffusion models en
dc.subject Emotion manipulation en
dc.subject Lip reading en
dc.subject CLIP guidance en
dc.subject Photorealism en
dc.title Μοντέλα Διάχυσης με Εφαρμογές στην Αναπαράσταση Προσώπου και Σύνθεση Ομιλούντος Προσώπου el
dc.title Diffusion Models with Applications in Face Reenactment and Talking Face Synthesis en
heal.type masterThesis
heal.classification Deep Generative Modeling en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-07-12
heal.abstract As generative adversarial networks (GANs) have proven capable of generating high-quality samples, they managed to draw a lot of attention in the last 10 years. But recently, even more potent generative methods, like diffusion models (DMs) have emerged, posing a threat to the dominance of GANs in the production of synthetic data. DMs are quickly finding use in both low-level and high-level vision tasks because of their incredible generative capabilities, including but not limited to image denoising, image super-resolution, semantic segmentation, semantic image synthesis and image-to-image translation. In this thesis we explicitly focus on image-to-image translation and more specifically on facial expression manipulation (also known as face reenactment) on the basis of “in-the-wild” images. Photo-realistic face reenactment can be used for entertainment purposes, human-computer interactions, and facial animations, among other things. This area has been attracting considerable attention both from academic and industrial research communities and has produced stunning outcomes that broaden the scope of inventive image editing, and content creation. Moreover we delve into talking face synthesis, a newly emerging application of DMs that also enjoys a wide range of downstream uses, such as teleconferencing, movie dubbing and virtual assistants. More specifically we: (a) Conduct experiments relative to face reenactment on the basis of the fully uncontrolled, in-the-wild settings of the AffectNet database. Experiments for talking face synthesis were performed on more controlled/lab settings, on the basis of the MEAD dataset, and only considering video sequences that depicted frontal face views. (b) To the best of our knowledge, our work on AffectNet is the first fully-fledged set of experiments conducted on the aforementioned dataset in the context of diffusion-based facial reenactment. (c) We leveraged CLIP pre-trained models with the aim of better guiding the underlying emotional manipulation processes. We drew inspiration from and extended the DiffusionCLIP framework. (d) We compared our method with SOTA GAN-based models, surpassing the latter in terms of image quality and subject identity preservation, while achieving competitive results regarding emotion translation accuracy. (e) To the best of our knowledge, we propose the first proper lip reading-based finetuning methodology, in the context of talking-face synthesis with Latent Diffusion Models. en
heal.abstract Καθώς τα Παραγωγικά Αντιπαλικά Δίκτυα (ΠΑΔ) έχουν αποδειχθεί ικανά να παράγουν δείγματα υψηλής ποιότητας, κατάφεραν να τραβήξουν μεγάλη προσοχή από την ευρεία επιστημονική κοινότητα τα τελευταία 10 χρόνια. Όμως πρόσφατα, εμφανίστηκαν ακόμη πιο ισχυρά και ικανά παραγωγικά μοντέλα, όπως τα μοντέλα διάχυσης (ΜΔ), που αποτελούν απειλή για την κυριαρχία των ΠΑΔ στην παραγωγή συνθετικών δεδομένων. Τα ΜΔ βρίσκουν γρήγορα χρήση σε εφαρμογές της όρασης υπολογιστών όπως: αποθορυβοποίηση εικόνας, υπερ-ανάλυση εικόνας, σημασιολογική τμηματοποίηση, σημασιολογική σύνθεση εικόνας καθώς και μετάφραση εικόνας-σε-εικόνα. Σε αυτή τη διατριβή εστιάζουμε ρητά στη μετάφραση εικόνας-σε-εικόνα και πιο συγκεκριμένα στη χειραγώγηση εκφράσεων του προσώπου (γνωστή και ως αναπαράσταση προσώπου). Η φωτορεαλιστική αναπαράσταση προσώπου μπορεί, μεταξύ άλλων, να χρησιμοποιηθεί για ψυχαγωγικούς σκοπούς, αλληλεπιδράσεις ανθρώπου-υπολογιστή και κινούμενα σχέδια προσώπου. Αυτός ο τομέας έχει προσελκύσει σημαντική προσοχή τόσο από τις ακαδημαϊκές όσο και από τις βιομηχανικές-ερευνητικές κοινότητες και έχει παράξει εκπληκτικά αποτελέσματα που διευρύνουν το εύρος της εφευρετικής επεξεργασίας εικόνας και της δημιουργίας περιεχομένου. Επιπλέον, εμβαθύνουμε στη σύνθεση ομιλούντων προσώπων, μια πρόσφατα αναδυόμενη εφαρμογή των ΜΔ που απολαμβάνει επίσης ένα ευρύ φάσμα μεταγενέστερων χρήσεων, όπως τις τηλεδιασκέψεις, μεταγλώττιση ταινιών και εικονικούς βοηθούς. Πιο συγκεκριμένα: (α) Πραγματοποιήσαμε πειράματα σχετικά με την αναπαράσταση προσώπου με βάση τις πλήρως ανεξέλεγκτες συνθήκες της βάσης δεδομένων AffectNet. Πειράματα για τη σύνθεση ομιλούντος προσώπου πραγματοποιήθηκαν σε πιο ελεγχόμενες/εργαστηριακές προδιαγραφές, με βάση το σύνολο δεδομένων MEAD, και λαμβάνοντας υπόψη μόνο τις ακολουθίες βίντεο που απεικόνιζαν μετωπικές όψεις προσώπου. (β) Από όσο γνωρίζουμε, η εργασία μας στην AffectNet αποτελεί το πρώτο ολοκληρωμένο σύνολο πειραμάτων που διεξήχθη στο προαναφερθέν σύνολο δεδομένων στο πλαίσιο της αναπαράστασης προσώπου βάσει ΜΔ. (γ) Αξιοποιήσαμε προεκπαιδευμένα μοντέλα CLIP με στόχο την καλύτερη καθοδήγηση των υποκείμενων διαδικασιών συναισθηματικής χειραγώγησης, εμπνεόμενοι από και επεκτείνοντας το μοντέλο DiffusionCLIP. (δ) Συγκρίναμε τη μέθοδό μας με την τελευταία λέξη της τεχνολογίας όσον αφορά ΠΑΔ, ξεπερνώντας το τελευταία ως προς την ποιότητα εικόνας και τη διατήρηση της ταυτότητας των υποκείμενων εικονιζόμενων προσώπων, επιτυγχάνοντας παράλληλα ανταγωνιστικά αποτελέσματα όσον αφορά την ακρίβεια μετάφρασης των συναισθημάτων. (ε) Από όσο γνωρίζουμε, προτείνουμε την πρώτη έγκυρη μεθοδολογία προσαρμογής που βασίζεται στην ανάγνωση των χειλιών, στο πλαίσιο της σύνθεσης ομιλούντος προσώπου με Μοντέλα Λανθάνουσας Διάχυσης. el
heal.advisorName Μαραγκός, Πέτρος
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 113 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα