dc.contributor.author |
Τσόγκας, Ευάγγελος
|
el |
dc.contributor.author |
Tsogkas, Efangelos
|
en |
dc.date.accessioned |
2022-02-15T10:28:22Z |
|
dc.date.available |
2022-02-15T10:28:22Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/54709 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.22407 |
|
dc.description |
Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" |
el |
dc.rights |
Default License |
|
dc.subject |
Μετάφραση από εικόνα σε εικόνα |
el |
dc.subject |
Bαθιά μάθηση |
el |
dc.subject |
Yπολογιστική όραση |
el |
dc.subject |
Παραγωγικά αντιπαραθετικά δίκτυα |
el |
dc.subject |
Σημασιολογική κατάτμηση |
el |
dc.subject |
Image-to-image translation |
en |
dc.subject |
Deep learning |
en |
dc.subject |
Computer vision |
en |
dc.subject |
Generative adversarial networks |
en |
dc.subject |
Semantic segmentation |
en |
dc.title |
Unsupervised translation of grand theft auto V images to real urban scenes |
en |
heal.type |
masterThesis |
|
heal.classification |
Όραση υπολογιστών |
el |
heal.classification |
Computer vision |
en |
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2022-01-19 |
|
heal.abstract |
Τα τελευταία χρόνια, η Βαθιά Μάθηση έχει αναπτυχθεί ραγδαία και έχει συμβάλει σημαντικά στην εξέλιξη της Όρασης Υπολογιστών. Ομοίως, από την εμφάνιση των Παραγωγικών Αντιπαραθετικών Δικτύων (Generative Adversarial Networks, GANs), ο τομέας της Παραγωγικής Τεχνητής Νοημοσύνης έχει υποστεί ριζικές αλλαγές. Τα GANs είναι μια οικογένεια μοντέλων που μπορούν να μαθαίνουν μοτίβα από υπάρχοντα δεδομένα, όπως εικόνες ή κείμενο, και στη συνέχεια να παράγουν νέο περιεχόμενο με εντυπωσιακά αποτελέσματα. Η αποτελεσματικότητα των GANs έχει προκαλέσει μεγάλο ενδιαφέρον δίνοντας αφορμή για πολλές νέες προσεγγίσεις και εφαρμογές, καθώς όλο και περισσότερη έρευνα αφιερώνεται γύρω από αυτά. Ένα τέτοιο ερευνητικό θέμα είναι η μετάφραση από εικόνα σε εικόνα, το αντικείμενο του μετασχηματισμού εικόνων από ένα πεδίο έτσι ώστε να έχουν το ύφος ή τα χαρακτηριστικά εικόνων ενός άλλου πεδίου. Η μετάφραση από εικόνα σε εικόνα μπορεί να εφαρμοστεί για τη μεταφορά καλλιτεχνικού ύφους (π.χ. για τη μετατροπή μιας φωτογραφίας ώστε να μοιάζει με τον πίνακα ενός διάσημου ζωγράφου) ή ακόμη και για τη γεφύρωση του χάσματος μεταξύ συνθετικών και πραγματικών εικόνων. Αυτή η διατριβή επικεντρώνεται στο τελευταίο και αποσκοπεί στη μετατροπή εικόνων του παιχνιδιού Grand Theft Auto V (GTA V) ώστε να μοιάζουν με ρεαλιστικές εικόνες αστικών περιοχών, εφαρμόζοντας σύγχρονες μεθόδους μετάφρασης εικόνας σε εικόνα. Πιο συγκεκριμένα, εκπαιδεύτηκαν τέσσερα μοντέλα μη επιβλεπόμενης μάθησης βασισμένα σε GANs για την ενίσχυση του ρεαλισμού των εικόνων του GTA V. Οι μεταφρασμένες εικόνες αξιολογήθηκαν με τη χρήση κοινών μέτρων αξιολόγησης των GANs, καθώς και μέσω της επίδοσης στη σημασιολογική κατάτμηση. Τα αποτελέσματα υποδεικνύουν ότι τα μοντέλα που βασίζονται στη μάθηση της κυκλικής συνέπειας (cycle-consistency learning) μπορούν να διατηρήσουν καλύτερα τις λεπτομερείς γεωμετρίες, ενώ τα μοντέλα που βασίζονται στην αντιφατική μάθηση (contrastive learning) εκτελούν πιο επιθετικές αλλαγές με αποτέλεσμα να κάνουν περισσότερα λάθη, όπως να γεμίζουν τον ουρανό με δέντρα που δεν υπάρχουν. Η αξιολόγηση της ποιότητας των εικόνων μέσω της σημασιολογικής κατάτμησης αποδείχθηκε πιο αξιόπιστη σε τέτοιες περιπτώσεις, καθώς μετρικές όπως η Fréchet Inception Distance (FID) δεν μπορούν να ανιχνεύσουν τέτοιες αναντιστοιχίες στη δομή τους. |
el |
heal.abstract |
Over the past years, Deep Learning has grown rapidly and has contributed significantly to the development of Computer Vision. Similarly, since the emergence of Generative
Adversarial Networks (GANs), the field of Generative Artificial Intelligence has been revolutionized. GANs are a family of models, a framework, that can learn patterns from existing data, such as images or text, and then generate new content with impressive results. The effectiveness of GANs has sparked a lot of interest giving rise to many new approaches and applications as more and more research is devoted around them. One such research topic is image-to-image translation, the task of transforming images from one domain so that they have the style or characteristics of images from another domain. Image-to-image translation can be applied to transfer artistic style (e.g. to transform a photo to look like a painting of a famous painter) or even to bridge the gap between synthetic and real images. This thesis focuses on the latter and aims to transform images of the open-world game Grand Theft Auto V (GTA V) to look like realistic urban scenes by applying state-of-the-art image-to-image translation methods. Specifically, four unsupervised models based on GANs were trained to enhance the realism of GTA V images. The translated images were evaluated with the use of common GAN evaluation measures as well as through the performance in semantic segmentation. The results suggest that models based on cycle-consistency learning can better preserve detailed geometries, while models based on contrastive learning perform more aggressive changes resulting in more mistakes, like populating the sky with trees that do not exist. The evaluation of the quality of the images through semantic segmentation proved to be more reliable in such cases, as metrics like Fréchet Inception Distance (FID) cannot detect such mismatched scene structures. |
en |
heal.advisorName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.committeeMemberName |
Σταφυλοπάτης, Ανδρέας-Γεώργιος |
el |
heal.committeeMemberName |
Κόλλιας, Στέφανος |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
75 σ. |
el |
heal.fullTextAvailability |
false |
|