HEAL DSpace

Unsupervised translation of grand theft auto V images to real urban scenes

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Τσόγκας, Ευάγγελος el
dc.contributor.author Tsogkas, Efangelos en
dc.date.accessioned 2022-02-15T10:28:22Z
dc.date.available 2022-02-15T10:28:22Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54709
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22407
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Μετάφραση από εικόνα σε εικόνα el
dc.subject Bαθιά μάθηση el
dc.subject Yπολογιστική όραση el
dc.subject Παραγωγικά αντιπαραθετικά δίκτυα el
dc.subject Σημασιολογική κατάτμηση el
dc.subject Image-to-image translation en
dc.subject Deep learning en
dc.subject Computer vision en
dc.subject Generative adversarial networks en
dc.subject Semantic segmentation en
dc.title Unsupervised translation of grand theft auto V images to real urban scenes en
heal.type masterThesis
heal.classification Όραση υπολογιστών el
heal.classification Computer vision en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-01-19
heal.abstract Τα τελευταία χρόνια, η Βαθιά Μάθηση έχει αναπτυχθεί ραγδαία και έχει συμβάλει σημαντικά στην εξέλιξη της Όρασης Υπολογιστών. Ομοίως, από την εμφάνιση των Παραγωγικών Αντιπαραθετικών Δικτύων (Generative Adversarial Networks, GANs), ο τομέας της Παραγωγικής Τεχνητής Νοημοσύνης έχει υποστεί ριζικές αλλαγές. Τα GANs είναι μια οικογένεια μοντέλων που μπορούν να μαθαίνουν μοτίβα από υπάρχοντα δεδομένα, όπως εικόνες ή κείμενο, και στη συνέχεια να παράγουν νέο περιεχόμενο με εντυπωσιακά αποτελέσματα. Η αποτελεσματικότητα των GANs έχει προκαλέσει μεγάλο ενδιαφέρον δίνοντας αφορμή για πολλές νέες προσεγγίσεις και εφαρμογές, καθώς όλο και περισσότερη έρευνα αφιερώνεται γύρω από αυτά. Ένα τέτοιο ερευνητικό θέμα είναι η μετάφραση από εικόνα σε εικόνα, το αντικείμενο του μετασχηματισμού εικόνων από ένα πεδίο έτσι ώστε να έχουν το ύφος ή τα χαρακτηριστικά εικόνων ενός άλλου πεδίου. Η μετάφραση από εικόνα σε εικόνα μπορεί να εφαρμοστεί για τη μεταφορά καλλιτεχνικού ύφους (π.χ. για τη μετατροπή μιας φωτογραφίας ώστε να μοιάζει με τον πίνακα ενός διάσημου ζωγράφου) ή ακόμη και για τη γεφύρωση του χάσματος μεταξύ συνθετικών και πραγματικών εικόνων. Αυτή η διατριβή επικεντρώνεται στο τελευταίο και αποσκοπεί στη μετατροπή εικόνων του παιχνιδιού Grand Theft Auto V (GTA V) ώστε να μοιάζουν με ρεαλιστικές εικόνες αστικών περιοχών, εφαρμόζοντας σύγχρονες μεθόδους μετάφρασης εικόνας σε εικόνα. Πιο συγκεκριμένα, εκπαιδεύτηκαν τέσσερα μοντέλα μη επιβλεπόμενης μάθησης βασισμένα σε GANs για την ενίσχυση του ρεαλισμού των εικόνων του GTA V. Οι μεταφρασμένες εικόνες αξιολογήθηκαν με τη χρήση κοινών μέτρων αξιολόγησης των GANs, καθώς και μέσω της επίδοσης στη σημασιολογική κατάτμηση. Τα αποτελέσματα υποδεικνύουν ότι τα μοντέλα που βασίζονται στη μάθηση της κυκλικής συνέπειας (cycle-consistency learning) μπορούν να διατηρήσουν καλύτερα τις λεπτομερείς γεωμετρίες, ενώ τα μοντέλα που βασίζονται στην αντιφατική μάθηση (contrastive learning) εκτελούν πιο επιθετικές αλλαγές με αποτέλεσμα να κάνουν περισσότερα λάθη, όπως να γεμίζουν τον ουρανό με δέντρα που δεν υπάρχουν. Η αξιολόγηση της ποιότητας των εικόνων μέσω της σημασιολογικής κατάτμησης αποδείχθηκε πιο αξιόπιστη σε τέτοιες περιπτώσεις, καθώς μετρικές όπως η Fréchet Inception Distance (FID) δεν μπορούν να ανιχνεύσουν τέτοιες αναντιστοιχίες στη δομή τους. el
heal.abstract Over the past years, Deep Learning has grown rapidly and has contributed significantly to the development of Computer Vision. Similarly, since the emergence of Generative Adversarial Networks (GANs), the field of Generative Artificial Intelligence has been revolutionized. GANs are a family of models, a framework, that can learn patterns from existing data, such as images or text, and then generate new content with impressive results. The effectiveness of GANs has sparked a lot of interest giving rise to many new approaches and applications as more and more research is devoted around them. One such research topic is image-to-image translation, the task of transforming images from one domain so that they have the style or characteristics of images from another domain. Image-to-image translation can be applied to transfer artistic style (e.g. to transform a photo to look like a painting of a famous painter) or even to bridge the gap between synthetic and real images. This thesis focuses on the latter and aims to transform images of the open-world game Grand Theft Auto V (GTA V) to look like realistic urban scenes by applying state-of-the-art image-to-image translation methods. Specifically, four unsupervised models based on GANs were trained to enhance the realism of GTA V images. The translated images were evaluated with the use of common GAN evaluation measures as well as through the performance in semantic segmentation. The results suggest that models based on cycle-consistency learning can better preserve detailed geometries, while models based on contrastive learning perform more aggressive changes resulting in more mistakes, like populating the sky with trees that do not exist. The evaluation of the quality of the images through semantic segmentation proved to be more reliable in such cases, as metrics like Fréchet Inception Distance (FID) cannot detect such mismatched scene structures. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 75 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής