Generation of synthetic referring expressions for object
segmentation in videos

Kazakos, Ioannis; Καζάκος, Ιωάννης

dc.contributor.author	Kazakos, Ioannis	en
dc.contributor.author	Καζάκος, Ιωάννης	el
dc.date.accessioned	2021-01-14T16:19:55Z
dc.date.available	2021-01-14T16:19:55Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52780
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.20478
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	Computer vision	en
dc.subject	Natural Language Processing	el
dc.subject	Referring expressions	en
dc.subject	Video object segmentation	en
dc.subject	Synthetic data generation	en
dc.subject	Όραση υπολογιστών
dc.subject	Επεξεργασία Φυσικής Γλώσσας
dc.subject	Αναφορικές εκφράσεις	el
dc.subject	Κατάτμηση αντικειμένων σε βίντεο	el
dc.subject	Παραγωγή συνθετικών δεδομένων	el
dc.title	Generation of synthetic referring expressions for object segmentation in videos	en
dc.title	Παραγωγή συνθετικών αναφορικών εκφράσεων για κατάτμηση αντικειμένων σε βίντεο	el
heal.type	masterThesis
heal.classification	Computer science	en
heal.classification	Deep learning	en
heal.classification	Artificial Intelligence	en
heal.classification	Επιστήμη Υπολογιστών	el
heal.classification	Τεχνητή Νοημοσύνη	el
heal.classification	Βαθιά Μηχανική Μάθηση	el
heal.classification	Vision and language	en
heal.classification	Όραση και γλώσσα	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-11-11
heal.abstract	Integrating computer vision with natural language processing has achieved significant progress over the last years owing to the continuous evolution of deep learning. A novel vision and language task, which is tackled in the present Master thesis is referring video object segmentation, in which a language query defines which instance to segment from a video sequence. One of the biggest challenges for this task is the lack of relatively large annotated datasets since a tremendous amount of time and human effort is required for annotation. Moreover, existing datasets suffer from poor quality annotations in the sense that approximately one out of ten referring expressions fails to uniquely describe the target object, according to a relevant analysis. The purpose of the present Master thesis is to address these challenges by proposing a novel method for generating synthetic referring expressions for an image (video frame). This method produces synthetic referring expressions by using only the ground-truth annotations of objects as well as their attributes, which are detected by a state-of-the-art object detection deep neural network. One of the advantages of the proposed method is that its formulation allows its application to any object detection or segmentation dataset. By using the proposed method, the first large-scale dataset with synthetic referring expressions for video object segmentation is created, based on an existing large benchmark dataset for video instance segmentation. A statistical analysis and comparison of the created synthetic dataset with existing, human-produced datasets is also provided in the present Master thesis. The conducted experiments on three different datasets used for referring video object segmentation prove the efficiency of the generated synthetic data. More specifically, the obtained results demonstrate that by pre-training a deep neural network with the proposed synthetic dataset one can improve the ability of the network to generalize across different datasets. This outcome is even more important taking into account that no additional annotation cost is involved.	en
heal.abstract	Η ενσωμάτωση της επεξεργασίας φυσικής γλώσσας στην όραση υπολογιστών έχει σημειώσει σημαντική πρόοδο τα τελευταία χρόνια χάρη στη συνεχή εξέλιξη της βαθιάς μηχανικής μάθησης. Ένα καινοτόμο πρόβλημα το οποίο συνδυάζει τη μηχανική όραση και την επεξεργασία φυσικής γλώσσας είναι αυτό της κατάτμησης αντικειμένων σε ακολουθίες εικόνων (βίντεο) με τη χρήση αναφορικών εκφράσεων, όπου μια πρόταση φυσικής γλώσσας καθορίζει ποιο αντικείμενο πρέπει να κατατμηθεί σε ένα βίντεο. Μια από τις μεγαλύτερες προκλήσεις αυτής της εφαρμογής είναι η έλλειψη συνόλων δεδομένων μεγάλης κλίμακας, εξαιτίας του υπερβολικά μεγάλου χρόνου και ανθρώπινης προσπάθειας που απαιτούνται για τη συλλογή τους. Επιπλέον, τα υπάρχοντα σύνολα δεδομένων υποφέρουν από ετικέτες κακής ποιότητας καθώς, σύμφωνα με μια σχετική ανάλυση, περίπου μία στις δέκα αναφορικές εκφράσεις που περιέχονται σε αυτά αποτυγχάνουν να περιγράψουν μοναδικά το αντικείμενο-στόχο. Ο σκοπός της παρούσας μεταπτυχιακής εργασίας είναι να αντιμετωπίσει αυτές τις προκλήσεις προτείνοντας μια καινοτόμο μέθοδο για την παραγωγή συνθετικών αναφορικών εκφράσεων για μια εικόνα (ενός καρέ του βίντεο). Η μέθοδος αυτή παράγει συνθετικές αναφορικές εκφράσεις χρησιμοποιώντας μόνο τις ετικέτες αναφοράς των αντικειμένων μιας εικόνας ή ενός βίντεο, καθώς και τα χαρακτηριστικά τους, τα οποία ανιχνεύονται από ένα υπερσύγχρονο βαθύ νευρωνικό δίκτυο εκπαιδευμένο για τον εντοπισμό αντικειμένων και των χαρακτηριστικών τους. Ένα από τα πλεονεκτήματα της προτεινόμενης μεθόδου είναι ότι ο ορισμός της επιτρέπει την εφαρμογή της σε οποιοδήποτε άλλο σύνολο δεδομένων εντοπισμού ή κατάτμησης αντικειμένων. Χρησιμοποιώντας την προτεινόμενη μέθοδο, δημιουργείται και παρουσιάζεται το πρώτο μεγάλης κλίμακας σύνολο συνθετικών δεδομένων με αναφορικές εκφράσεις για κατάτμηση αντικειμένων σε βίντεο, βασισμένο σε ένα υπάρχον σύνολο δεδομένων κατάτμησης αντικειμένων σε βίντεο. Η παρούσα εργασία περιλαμβάνει στατιστική ανάλυση καθώς και σύγκριση του παραγόμενου συνόλου συνθετικών δεδομένων με υπάρχοντα σύνολα δεδομένων κατασκευασμένα από τον άνθρωπο. Τα πειράματα που διεξήχθησαν σε τρία διαφορετικά σύνολα δεδομένων που έχουν χρησιμοποιηθεί για την κατάτμηση αντικειμένων σε βίντεο με τη χρήση αναφορικών εκφράσεων, αποδεικνύουν την αποτελεσματικότητα των παραγόμενων συνθετικών δεδομένων. Συγκεκριμένα, τα αποτελέσματα επιδεικνύουν ότι προ-εκπαιδεύοντας ένα βαθύ νευρωνικό δίκτυο με το προτεινόμενο σύνολο συνθετικών δεδομένων, είναι δυνατή η βελτίωση της ικανότητας γενίκευσης του δικτύου σε διαφορετικά σύνολα δεδομένων. To συγκεκριμένο αποτέλεσμα έχει ακόμα μεγαλύτερη αξία αν αναλογιστεί κανείς ότι η επίτευξή του δε συμπεριλαμβάνει κανένα επιπλέον κόστος για υποσημείωση δεδομένων από ανθρώπους.	el
heal.advisorName	Karantzalos, Konstantinos	en
heal.advisorName	Καράντζαλος, Κωνσταντίνος	el
heal.committeeMemberName	Karantzalos, Konstantinos	en
heal.committeeMemberName	Xavier, Giró-i-Nieto	en
heal.committeeMemberName	Giorgos, Stamou	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false