HEAL DSpace

Photo-realistic neural rendering for emotion-related semantic manipulation of unconstrained facial videos

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Παραπέρας Παπαντωνίου, Φοίβος el
dc.contributor.author Paraperas Papantoniou, Foivos en
dc.date.accessioned 2022-07-21T08:33:30Z
dc.date.available 2022-07-21T08:33:30Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/55467
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.23165
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Emotion manipulation en
dc.subject Facial expressions en
dc.subject Deepfakes en
dc.subject GANs en
dc.subject 3DMMs en
dc.subject Neural rendering en
dc.subject Deep neural networks en
dc.subject Video editing en
dc.subject VFX en
dc.title Photo-realistic neural rendering for emotion-related semantic manipulation of unconstrained facial videos en
heal.type bachelorThesis
heal.classification Computer vision en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-02-28
heal.abstract Οι πρόσφατες εξελίξεις στην παραγωγική Βαθιά Μάθηση (generative Deep Learning) έχουν καταστήσει δυνατή τη σύνθεση και επεξεργασία εικόνων και βίντεο με πρωτοφανή ρεαλισμό, εισάγοντας πολυάριθμες νέες εφαρμογές στις περιοχές της ΄Ορασης και των Γραφικών Υπολογιστών. Μάλιστα, μια κατηγορία παραγωγικών μοντέλων, γνωστά ως Generative Adversarial Networks (GANs), έχουν αποδειχθεί ιδιαίτερα επιτυχημένα στη σύνθεση εικόνων ανθρώπινων προσώπων, οδηγώντας σε μια νέα εποχή συνθετικού οπτικού περιεχομένου που είναι ευρέως γνωστά ως “deepfakes”. Για παράδειγμα, τεχνικές όπως η ανταλλαγή προσώπου (face swap) ή η αλλαγή χαρακτηριστικών (π.χ. χρώμα μαλλιών, φύλο) έχουν γίνει αρκετά δημοφιλείς καθώς βασίζονται αποκλειστικά σε νευρωνικά δίκτυα, χωρίς την ανάγκη εξειδικευμένης γνώσης σε ψηφιακά εφέ. Βέβαια, ο χειρισμός των δυναμικών εκφράσεων του προσώπου, όπως αυτές ενός ατόμου που μιλάει σε ένα βίντεο, συνήθως απαιτεί τη ρητή μοντελοποίηση της δομής του. ΄Ετσι, άλλες εφαρμογές, όπως το λεγόμενο face reenactment, συχνά χρησιμοποιούν 3Δ αναπαραστάσεις του προσώπου που λαμβάνονται με εφαρμογή ενός στατιστικού μορφοποιήσιμου μοντέλου (3D Morphable Model - 3DMM) με τρόπο που διαχωρίζει τις εκφράσεις του προσώπου από τους υπόλοιπους παράγοντες μεταβολής του. Ωστόσο, τέτοιες μέθοδοι συχνά περιορίζονται στο να κάνουν έναν ηθοποιό-στόχο να μιμηθεί απευθείας τις εκφράσεις ενός ηθοποιού-αναφοράς χωρίς τη δυνατότητα σημασιολογικού ελέγχου επί των εκφράσεων αυτών. Με αυτό το σκεπτικό, ο στόχος μας σε αυτή τη διπλωματική εργασία είναι απλός, αλλά συνάμα απαιτητικός: η ανάπτυξη ενός συστήματος αλλαγής του συναισθήματος που εκφράζει ένας ηθοποιός σε ένα βίντεο με έναν εύκολα ερμηνεύσιμο τρόπο, δηλαδή χρησιμοποιώντας ακόμη και ως μόνη πληροφορία τις ετικέτες των επιθυμητών συναισθημάτων, διατηρώντας ταυτόχρονα τα αρχικά λόγια του ατόμου που μιλάει. Οι κύριες συνεισφορές μας συνοψίζονται ως εξής: • Παρέχουμε μια εις βάθος ανασκόπηση της βιβλιογραφίας που σχετίζεται με το πρόβλημα αλλαγής του συναισθήματος σε εικόνες προσώπων, εξάγοντας συμπεράσματα σχετικά με τους περιορισμούς και τις προκλήσεις των υπάρχουσων μεθόδων. • Προτείνουμε την πρώτη - από όσο γνωρίζουμε - μέθοδο βαθιάς μάθησης για το “χειρισμό” της συναισθηματικής κατάστασης των ηθοποιών σε βίντεο υπό πραγματικές συνθήκες (“in-the-wild”), “μεταφράζοντας” τις δυναμικές εκφράσεις του προσώπου τους σε διαφορετικά συναισθήματα ή στυλ, χωρίς να επηρεάζουμε τις κινήσεις των χειλιών. • Εισάγουμε ένα GAN δίκτυο “μετάφρασης του συναισθήματος”, το οποίο λαμβάνει ως είσοδο μια ακολουθία παραμέτρων έκφρασης του προσώπου από διαδοχικά καρέ και τις μετατρέπει ώστε να απεικονίζουν το επιθυμητό συναίσθημα. Παράλληλα, σχεδιάζουμε ένα νευρωνικό δίκτυο σύνθεσης του προσώπου (neural face renderer) για την μετατροπή της 3Δ αναπαράστασης των αλλαγμένων εκφράσεων σε ρεαλιστικές εικόνες του προσώπου. • Πραγματοποιούμε εκτενή ποιοτικά και ποσοτικά πειράματα και συγκρίνουμε τη μέθοδό μας με πρόσφατες μεθόδους. Τα πειράματα καταδεικνύουν την υπεροχή και τα πλεονεκτήματα της μεθόδου μας, η οποία επιτυγχάνει υποσχόμενα αποτελέσματα σε πολύ δύσκολα σενάρια όπως αυτά που συναντάμε σε σκηνές ταινιών με κινούμενα αντικείμενα στο υπόβαθρο. Η εργασία μας [93] έγινε δεκτή προς δημοσίευση στο 2022 IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), με συγγραφείς τους Φοίβο Παραπέρα Παπαντωνίου, Παναγιώτη Π. Φιλντίση, Πέτρο Μαραγκό και Αναστάσιο Ρούσσο. Στην ακόλουθη σελίδα παρέχουμε βίντεο με τα αποτελέσματα καθώς και τον κώδικά μας: https://foivospar.github.io/NED/. el
heal.abstract Recent advances in generative Deep Learning have made it possible to synthesize and manipulate images and videos with unprecedented realism, giving rise to a plethora of creative applications lying at the intersection of Computer Vision and Computer Graphics. In fact, a class of generative models, known as Generative Adversarial Networks (GANs), have proven particularly successful at generating images of human faces, leading to the new era of synthetic visual facial content known as “deepfakes”. For instance, deepfake techniques such as face swap or attribute (e.g. hair color, gender) manipulation have become quite popular since they rely solely on neural networks, without requiring expertise on digital effects. Yet, when it comes to manipulating dynamic facial expressions encountered in videos of talking faces, explicit prior knowledge of the face’s structure is usually needed. To this end, challenging applications such as face reenactment typically employ 3D face representations that can be obtained by fitting a statistical morphable model (3D Morphable Model - 3DMM) to a given image/video in a way that disentangles the expressions of the face from its rest modes of variation. Still, these methods are often limited to making a target actor directly mimic the expressions of a source actor without any further semantic control over these expressions. Motivated by this, our goal in this thesis is simple, yet challenging: the development of a novel deepfake system for altering the dynamic emotion conveyed by an actor in a video in an easily interpretable way, i.e. by even using as a sole input the semantic labels of the desired emotions, while at the same time preserving the original words of the talking person. Our main contributions can be summarized as follows: • We perform an in-depth review of the literature related to photo-realistic emotion manipulation in face images drawing conclusions about the limitations and challenges of the current SOTA. We, also, provide an overview of the latest developments in the fields of 3D face modelling and GAN-based image synthesis, some of which are carefully integrated in our system. • We propose the first - to our knowledge - deep learning method, which we call Neural Emotion Director, for “directing” the emotional state of actors in unconstrained (“in-the-wild”) videos, by translating their facial expressions to multiple unseen emotions or styles, without altering the lip movements. • We introduce a GAN-based network, called 3D-based Emotion Manipulator, that receives a sequence of facial expression parameters across consecutive frames and translates them to a given target emotion or a specific reference style. We, then, design a video-based neural face renderer for decoding the parametric representation of the altered expressions back to photo-realistic frames. We modify only the face area, while the background remains unchanged. • We assess our method through extensive qualitative and quantitative experiments, user and ablation studies and compare it with recent state-of-the-art methods demonstrating its superiority and advantages. We achieve promising results in very challenging scenarios like the ones found in movie scenes with moving background objects. Our work [93] was accepted to the 2022 IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), with the authors being Foivos Paraperas Papantoniou, Panagiotis P. Filntisis, Petros Maragos and Anastasios Roussos. Our demo youtube video and source code can be found in our project website: https://foivospar.github.io/NED/. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 118 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα