Video Anonymization and Neural Rendering of Photo-realistic Human Actor Videos with applications to Sign Language

Τζε, Χριστίνα Ουρανία; Tze, Christina Ourania

dc.contributor.author	Τζε, Χριστίνα Ουρανία	el
dc.contributor.author	Tze, Christina Ourania	en
dc.date.accessioned	2023-01-25T08:06:12Z
dc.date.available	2023-01-25T08:06:12Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/56888
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.24586
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Ανωνυμοποίηση βίντεο νοηματικής γλώσσας	el
dc.subject	Παραγωγή βίντεο νοηματικής γλώσσας	el
dc.subject	Σύνθεση βίντεο	el
dc.subject	Επαναστόχευση ανθρώπινης κίνησης	el
dc.subject	Τρισδιάστατη εκτίμηση ανθρώπινης πόζας	el
dc.subject	Sign Language Video Anonymization	en
dc.subject	Sign Language Production	en
dc.subject	Photo-realistic Video Synthesis	en
dc.subject	Neural Rendering	en
dc.subject	Human Motion Retargeting	en
dc.title	Video Anonymization and Neural Rendering of Photo-realistic Human Actor Videos with applications to Sign Language	en
heal.type	bachelorThesis
heal.classification	Όραση Υπολογιστών	el
heal.classification	Computer Vision	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-10-17
heal.abstract	Οι νοηματικές γλώσσες είναι γλώσσες που έχουν εξελιχθεί στις κοινότητες των κωφών και βασίζονται στην κίνηση των χεριών, στην στάση ή την κίνηση του σώματος καθώς και στις εκφράσεις του προσώπου για να αποδώσουν ένα νόημα. Οι ερευνητές όρασης υπολογιστών μελετούν τις νοηματικές γλώσσες τις τελευταίες τρεις δεκαετίες. Ωστόσο, για πολλά χρόνια, η έρευνα είχε επικεντρωθεί σε σενάρια μεμονωμένης αναγνώρισης νοημάτων, κυρίως λόγω της έλλειψης συνόλων δεδομένων μεγάλης κλίμακας για εκπαίδευση και αξιολόγηση. Η απροθυμία των συμμετεχόντων να συνεισφέρουν στη συλλογή δεδομένων σχετιζόταν εν μέρει με τις ανησυχίες τους για το απόρρητο των δεδομένων και την κακή χρήση των βίντεο, ενώ εξακολουθεί να ανησυχεί την ερευνητική κοινότητα μέχρι και σήμερα. Πιο πρόσφατα, η διαθεσιμότητα ορισμένων συνόλων δεδομένων νοηματικής γλώσσας καθώς και η ανάπτυξη αλγορίθμων που μπορούν να μάθουν από ανεπαρκείς επισημειώσεις, οδήγησαν την έρευνα προς την αναγνώριση συνεχούς νοηματικής γλώσσας και τη μετάφραση νοηματικής γλώσσας, δηλαδή την αναγνώριση συνεχών νοηματικών χειρονομιών από ακολουθίες βίντεο και την μετάφραση νοηματικών γλωσσών σε προφορικές γλώσσες, αντίστοιχα. ΄Ενα από τα πιο απαιτητικά ανοιχτά προβλήματα των τεχνολογιών νοηματικής γλώσσας είναι η δημιουργία συνθετικών βίντεο νοηματικής που επιτρέπουν στους χρήστες να βιώσουν μια φυσική και ρευστή επικοινωνία, παρόμοια με την επικοινωνία από άνθρωπο σε άνθρωπο. Οι περισσότερες υπάρχουσες τεχνικές παραγωγής νοηματικής γλώσσας βασίζονται στην δημιουργία μέσω υπολογιστή ενός εικονικού χαρακτήρα και την απεικόνισή του με χρήση τρισδιάστατων γραφικών. Ωστόσο, αυτό συνήθως οδηγεί σε χαμηλά επίπεδα ρεαλισμού, όσον αφορά την εμφάνιση και την κίνηση των χαρακτήρων αυτών. ΄Οπως και στην περίπτωση των συνθετικών φωνών που μοιάζουν σαν ρομπότ, αυτό δημιουργεί σημαντικά προβλήματα από την πλευρά των χρηστών ως προς την αληθοφάνεια και την εμπλοκή τους με τέτοιες τεχνολογίες. Με κίνητρο τις προαναφερθείσες ανησυχίες και προκλήσεις στον τομέα των νοηματικών γλωσσών, ο στόχος μας σε αυτή τη διπλωματική εργασία είναι διπλός: να προτείνουμε μια νέα μέθοδο για ανωνυμοποίηση βίντεο χρησιμοποιώντας χαρακτήρες κινουμένων σχεδίων και να αναπτύξουμε ένα νέο σύστημα βασισμένο σε τεχνικές neural rendering για τη δημιουργία φωτορεαλιστικών βίντεο. Ο κύριος στόχος μας είναι να εφαρμόσουμε τις προτεινόμενες μεθόδους για τη σύνθεση νέων βίντεο νοηματικής: με δεδομένο ένα βίντεο νοηματικής, μπορούμε να δημιουργήσουμε ένα νέο βίντεο στο οποίο ένας χαρακτήρας κινουμένων σχεδίων ή ένας οποιοσδήποτε άνθρωπος αντιγράφει τις κινήσεις σώματος, τις χειρονομίες και τις εκφράσεις του προσώπου από το βίντεο εισόδου. Η εργασία μας [159] έγινε δεκτή στο 2022 IEEE Image, Video, and Multidimensional Signal Processing Workshop (IVMSP), με συγγραφείς τους Χριστίνα Ο. Τζε, Παναγιώτη Π. Φιλντίση, Αναστάσιο Ρούσσο και Πέτρο Μαραγκό.	el
heal.abstract	Sign languages are languages that have evolved in deaf communities and use the visual-manual modality to convey meaning. Computer vision researchers have been studying sign languages for the last three decades. However, for many years, research had focused on recognizing isolated signs, mainly due to the lack of large scale datasets for training and evaluation. Participants’ reluctance to contribute to data collection was partly related to their worries about privacy and video misuse, and continues to concern the research community. More recently, the availability of some sign language (SL) corpora as well as the development of algorithms that can learn from weak annotations, moved research towards continuous sign language recognition (CSLR) and sign language translation (SLT), i.e., recognizing signs from continuous signing videos and translating sign languages to spoken languages, respectively. One of the most challenging open problems of SL technologies is the generation of synthetic SL videos that allow SL users to experience a natural and fluid communication, similar to human-to-human SL communication. Most existing sign language production (SLP) techniques are based on animation of a computer-generated 3D avatar, followed by traditional 3D graphics rendering. However, this typically results to a low level of realism, as far as the appearance and motion of the avatars are concerned. As in the case of immature speech synthesis technologies (with e.g., robot-like synthesized voices), this creates important problems from the side of the users in terms of the plausibility and engagement with such technologies. Motivated by the aforementioned concerns and challenges in the SL field, our goal in this thesis is twofold: to propose a novel method for anonymizing videos using animated cartoon characters, and to develop a novel system for photo-realistic human video generation based on neural rendering. Our primary focus is to apply the proposed methods for the synthesis of new SL videos: given an input SL video, we can generate a video of a cartoon character or a human target signer making the same body movements, hand gestures, and facial expressions as the source signer. Our work [159] was accepted to the 2022 IEEE Image, Video, and Multidimensional Signal Processing Workshop (IVMSP), with the authors being Christina O. Tze, Panagiotis P. Filntisis, Anastasios Roussos and Petros Maragos.	en
heal.advisorName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.committeeMemberName	Ποταμιάνος, Γεράσιμος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	118 σ.	el
heal.fullTextAvailability	false