HEAL DSpace

Video Anonymization and Neural Rendering of Photo-realistic Human Actor Videos with applications to Sign Language

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Τζε, Χριστίνα Ουρανία el
dc.contributor.author Tze, Christina Ourania en
dc.date.accessioned 2023-01-25T08:06:12Z
dc.date.available 2023-01-25T08:06:12Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56888
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24586
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Ανωνυμοποίηση βίντεο νοηματικής γλώσσας el
dc.subject Παραγωγή βίντεο νοηματικής γλώσσας el
dc.subject Σύνθεση βίντεο el
dc.subject Επαναστόχευση ανθρώπινης κίνησης el
dc.subject Τρισδιάστατη εκτίμηση ανθρώπινης πόζας el
dc.subject Sign Language Video Anonymization en
dc.subject Sign Language Production en
dc.subject Photo-realistic Video Synthesis en
dc.subject Neural Rendering en
dc.subject Human Motion Retargeting en
dc.title Video Anonymization and Neural Rendering of Photo-realistic Human Actor Videos with applications to Sign Language en
heal.type bachelorThesis
heal.classification Όραση Υπολογιστών el
heal.classification Computer Vision en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-10-17
heal.abstract Οι νοηματικές γλώσσες είναι γλώσσες που έχουν εξελιχθεί στις κοινότητες των κωφών και βασίζονται στην κίνηση των χεριών, στην στάση ή την κίνηση του σώματος καθώς και στις εκφράσεις του προσώπου για να αποδώσουν ένα νόημα. Οι ερευνητές όρασης υπολογιστών μελετούν τις νοηματικές γλώσσες τις τελευταίες τρεις δεκαετίες. Ωστόσο, για πολλά χρόνια, η έρευνα είχε επικεντρωθεί σε σενάρια μεμονωμένης αναγνώρισης νοημάτων, κυρίως λόγω της έλλειψης συνόλων δεδομένων μεγάλης κλίμακας για εκπαίδευση και αξιολόγηση. Η απροθυμία των συμμετεχόντων να συνεισφέρουν στη συλλογή δεδομένων σχετιζόταν εν μέρει με τις ανησυχίες τους για το απόρρητο των δεδομένων και την κακή χρήση των βίντεο, ενώ εξακολουθεί να ανησυχεί την ερευνητική κοινότητα μέχρι και σήμερα. Πιο πρόσφατα, η διαθεσιμότητα ορισμένων συνόλων δεδομένων νοηματικής γλώσσας καθώς και η ανάπτυξη αλγορίθμων που μπορούν να μάθουν από ανεπαρκείς επισημειώσεις, οδήγησαν την έρευνα προς την αναγνώριση συνεχούς νοηματικής γλώσσας και τη μετάφραση νοηματικής γλώσσας, δηλαδή την αναγνώριση συνεχών νοηματικών χειρονομιών από ακολουθίες βίντεο και την μετάφραση νοηματικών γλωσσών σε προφορικές γλώσσες, αντίστοιχα. ΄Ενα από τα πιο απαιτητικά ανοιχτά προβλήματα των τεχνολογιών νοηματικής γλώσσας είναι η δημιουργία συνθετικών βίντεο νοηματικής που επιτρέπουν στους χρήστες να βιώσουν μια φυσική και ρευστή επικοινωνία, παρόμοια με την επικοινωνία από άνθρωπο σε άνθρωπο. Οι περισσότερες υπάρχουσες τεχνικές παραγωγής νοηματικής γλώσσας βασίζονται στην δημιουργία μέσω υπολογιστή ενός εικονικού χαρακτήρα και την απεικόνισή του με χρήση τρισδιάστατων γραφικών. Ωστόσο, αυτό συνήθως οδηγεί σε χαμηλά επίπεδα ρεαλισμού, όσον αφορά την εμφάνιση και την κίνηση των χαρακτήρων αυτών. ΄Οπως και στην περίπτωση των συνθετικών φωνών που μοιάζουν σαν ρομπότ, αυτό δημιουργεί σημαντικά προβλήματα από την πλευρά των χρηστών ως προς την αληθοφάνεια και την εμπλοκή τους με τέτοιες τεχνολογίες. Με κίνητρο τις προαναφερθείσες ανησυχίες και προκλήσεις στον τομέα των νοηματικών γλωσσών, ο στόχος μας σε αυτή τη διπλωματική εργασία είναι διπλός: να προτείνουμε μια νέα μέθοδο για ανωνυμοποίηση βίντεο χρησιμοποιώντας χαρακτήρες κινουμένων σχεδίων και να αναπτύξουμε ένα νέο σύστημα βασισμένο σε τεχνικές neural rendering για τη δημιουργία φωτορεαλιστικών βίντεο. Ο κύριος στόχος μας είναι να εφαρμόσουμε τις προτεινόμενες μεθόδους για τη σύνθεση νέων βίντεο νοηματικής: με δεδομένο ένα βίντεο νοηματικής, μπορούμε να δημιουργήσουμε ένα νέο βίντεο στο οποίο ένας χαρακτήρας κινουμένων σχεδίων ή ένας οποιοσδήποτε άνθρωπος αντιγράφει τις κινήσεις σώματος, τις χειρονομίες και τις εκφράσεις του προσώπου από το βίντεο εισόδου. Η εργασία μας [159] έγινε δεκτή στο 2022 IEEE Image, Video, and Multidimensional Signal Processing Workshop (IVMSP), με συγγραφείς τους Χριστίνα Ο. Τζε, Παναγιώτη Π. Φιλντίση, Αναστάσιο Ρούσσο και Πέτρο Μαραγκό. el
heal.abstract Sign languages are languages that have evolved in deaf communities and use the visual-manual modality to convey meaning. Computer vision researchers have been studying sign languages for the last three decades. However, for many years, research had focused on recognizing isolated signs, mainly due to the lack of large scale datasets for training and evaluation. Participants’ reluctance to contribute to data collection was partly related to their worries about privacy and video misuse, and continues to concern the research community. More recently, the availability of some sign language (SL) corpora as well as the development of algorithms that can learn from weak annotations, moved research towards continuous sign language recognition (CSLR) and sign language translation (SLT), i.e., recognizing signs from continuous signing videos and translating sign languages to spoken languages, respectively. One of the most challenging open problems of SL technologies is the generation of synthetic SL videos that allow SL users to experience a natural and fluid communication, similar to human-to-human SL communication. Most existing sign language production (SLP) techniques are based on animation of a computer-generated 3D avatar, followed by traditional 3D graphics rendering. However, this typically results to a low level of realism, as far as the appearance and motion of the avatars are concerned. As in the case of immature speech synthesis technologies (with e.g., robot-like synthesized voices), this creates important problems from the side of the users in terms of the plausibility and engagement with such technologies. Motivated by the aforementioned concerns and challenges in the SL field, our goal in this thesis is twofold: to propose a novel method for anonymizing videos using animated cartoon characters, and to develop a novel system for photo-realistic human video generation based on neural rendering. Our primary focus is to apply the proposed methods for the synthesis of new SL videos: given an input SL video, we can generate a video of a cartoon character or a human target signer making the same body movements, hand gestures, and facial expressions as the source signer. Our work [159] was accepted to the 2022 IEEE Image, Video, and Multidimensional Signal Processing Workshop (IVMSP), with the authors being Christina O. Tze, Panagiotis P. Filntisis, Anastasios Roussos and Petros Maragos. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 118 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα