Robustness and domain generalization in computer vision by using adversarial data augmentation

Kininis, Panagiotis; Κινινής Παναγιώτης

dc.contributor.author	Kininis, Panagiotis	en
dc.contributor.author	Κινινής Παναγιώτης	el
dc.date.accessioned	2025-01-08T10:14:04Z
dc.date.available	2025-01-08T10:14:04Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/60642
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.28338
dc.rights	Default License
dc.subject	Adversarial data augmentation	en
dc.subject	Domain generalization	en
dc.subject	Robustness	en
dc.subject	Deep learning	en
dc.subject	Synthetic datasets	en
dc.subject	MaxStyle	en
dc.subject	Ανθεκτικός εμπλουτισμός δεδομένων	el
dc.subject	Γενίκευση τομέα	el
dc.subject	Ανθεκτικότητα	el
dc.subject	Βαθιά μάθηση	el
dc.subject	Συνθετικά σύνολα δεδομένων	el
dc.subject	Υπολογιστική όραση	el
dc.subject	Σημασιολογική τμηματοποίηση	el
dc.subject	Random Convolution	en
dc.subject	Computer vision	en
dc.subject	Adversarial training	en
dc.subject	Image preprocessing	en
dc.title	Robustness and domain generalization in computer vision by using adversarial data augmentation	en
heal.type	masterThesis
heal.classification	Computer Science	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-07-09
heal.abstract	Deep learning models have significantly advanced the field of computer vision, yet they often struggle with generalization and robustness, particularly in applications requiring diverse and limited datasets, such as medical imaging. This thesis addresses this critical issue by exploring advanced data augmentation techniques to enhance the domain generalization and adversarial robustness of deep learning models. The primary objective is to develop and validate methods that can improve model performance in out-of-domain scenarios without extensive computational resources. The research utilizes adversarial data augmentation techniques, such as MaxStyle, MixStyle, and DSU, applied to the SYNTHIA dataset—a synthetic urban scene dataset depicting various environmental conditions. The SYNTHIA dataset, known for its diversity in scenes, dynamic objects, seasons, and weather conditions, provides a robust testbed for evaluating these techniques. Preprocessing steps including noise reduction, rescaling, resizing, and geometric and photometric transformations ensure the quality and usability of the dataset for training. This thesis demonstrates that feature-level augmentations can significantly improve model robustness. Techniques like MixStyle, which mixes instance-level feature statistics, and MaxStyle, which augments feature maps with style mixing and adversarial perturbations, show marked improvements in generalization across diverse domains. Experimental results reveal that models trained with these advanced augmentation techniques outperform standard training methods, particularly in challenging environmental conditions. Evaluations using the mean Intersection over Union (mIoU) metric show significant performance gains across various object classes and conditions, underscoring the efficacy of these techniques. This research highlights the potential of adversarial and feature-level data augmentation in overcoming the limitations of current deep learning models in computer vision, paving the way for more robust and generalizable applications in fields such as medical imaging.	en
heal.abstract	Τα μοντέλα βαθιάς μάθησης έχουν προωθήσει σημαντικά τον τομέα της υπολογιστικής όρασης, αλλά συχνά δυσκολεύονται με τη γενίκευση και την ανθεκτικότητα, ιδιαίτερα σε εφαρμογές που απαιτούν ποικίλα και περιορισμένα σύνολα δεδομένων, όπως η ιατρική απεικόνιση. Ο κύριος στόχος της παρούσας διατριβής είναι η ανάπτυξη και η επικύρωση μεθόδων που μπορούν να βελτιώσουν την απόδοση των μοντέλων σε σενάρια εκτός τομέα χωρίς εκτεταμένους υπολογιστικούς πόρους. Η έρευνα χρησιμοποιεί τεχνικές εμπλουτισμού δεδομένων έναντι επιθέσεων, όπως το MaxStyle, το MixStyle και το DSU, εφαρμοσμένες στο σύνολο δεδομένων SYNTHIA - ένα συνθετικό σύνολο δεδομένων αστικών σκηνών που απεικονίζει διάφορες περιβαλλοντικές συνθήκες. Το σύνολο δεδομένων SYNTHIA, γνωστό για την ποικιλία στις σκηνές, τα δυναμικά αντικείμενα, τις εποχές και τις καιρικές συνθήκες, παρέχει μια ανθεκτική βάση δοκιμών για την αξιολόγηση αυτών των τεχνικών. Αυτή η διατριβή δείχνει ότι οι εμπλουτισμοί στο επίπεδο των χαρακτηριστικών μπορούν να βελτιώσουν σημαντικά την ανθεκτικότητα των μοντέλων. Τεχνικές όπως το MixStyle, που αναμειγνύει στατιστικά χαρακτηριστικών σε επίπεδο δείγματος, και το MaxStyle, που εμπλουτίζει χάρτες χαρακτηριστικών με μίξη στυλ και επιθετικές διαταραχές, δείχνουν σημαντικές βελτιώσεις στη γενίκευση σε διάφορους τομείς. Τα πειραματικά αποτελέσματα αποκαλύπτουν ότι τα μοντέλα που εκπαιδεύονται με αυτές τις προηγμένες τεχνικές εμπλουτισμού υπερέχουν των τυπικών μεθόδων εκπαίδευσης, ιδιαίτερα σε δύσκολες περιβαλλοντικές συνθήκες. Οι αξιολογήσεις χρησιμοποιώντας το μέσο Intersection over Union (mIoU) δείχνουν σημαντικές βελτιώσεις απόδοσης σε διάφορες κατηγορίες αντικειμένων και συνθήκες, υπογραμμίζοντας την αποτελεσματικότητα αυτών των τεχνικών. Αυτή η έρευνα αναδεικνύει το δυναμικό των τεχνικών εμπλουτισμού δεδομένων έναντι επιθέσεων και σε επίπεδο χαρακτηριστικών για την υπέρβαση των περιορισμών των τρεχόντων μοντέλων βαθιάς μάθησης στην υπολογιστική όραση, ανοίγοντας τον δρόμο για πιο ανθεκτικές και γενικεύσιμες εφαρμογές σε τομείς όπως η ιατρική απεικόνιση.	el
heal.advisorName	Voulodimos, Athanasios	en
heal.committeeMemberName	Voulodimos, Athanasios	en
heal.committeeMemberName	Stamou, Giorgos	en
heal.committeeMemberName	Stafilopatis, Andreas - Georgios	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	120 σ.	el
heal.fullTextAvailability	false