Πολλαπλές αναλύσεις στην σημασιολογική κατάτμηση εικόνων

Μπενέτου, Σμαραγδή; Benetou, Smaragdi

dc.contributor.author	Μπενέτου, Σμαραγδή	el
dc.contributor.author	Benetou, Smaragdi	en
dc.date.accessioned	2024-05-27T08:57:13Z
dc.date.available	2024-05-27T08:57:13Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/59480
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27176
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Machine Learning	en
dc.subject	Computer Vision	en
dc.subject	Semantic Segmentation	en
dc.subject	Transformers	en
dc.subject	Multiple Resolutions	en
dc.subject	Μηχανική Μάθηση	el
dc.subject	Σημασιολογική Κατάτμηση	el
dc.subject	Μετασχηματιστές	el
dc.subject	Όραση Υπολογιστών	el
dc.subject	Πολλαπλές Αναλύσεις	el
dc.title	Πολλαπλές αναλύσεις στην σημασιολογική κατάτμηση εικόνων	el
dc.title	Multiple resolutions in semantic image segmentation	en
heal.type	bachelorThesis
heal.secondaryTitle	Introducing multiple resolutions to Mask2Former backbone	en
heal.secondaryTitle	Εισαγωγή πολλαπλών αναλύσεων στην ραχοκοκαλιά του Mask2Former	el
heal.classification	Machine Learning	el
heal.classification	Computer Vision	el
heal.classification	Μηχανική Μάθηση	el
heal.classification	Όραση Υπολογιστών	el
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-10-20
heal.abstract	Computer vision is a field in computer science aiming to enhance visual perception of computers. With numerous applications in different areas such as autopilot, medical imaging, security, agriculture etc., computer vision advancement is at the center of attention. Its tasks or goals are constantly getting more demanding. It started from classification which classifies an image. Then object detection was tackled which identifies all the objects in an image. Finally, semantic segmentation was introduced which requests for classification of every pixel in an image. Semantic segmentation is crucial in real-world applications as it would allow for complete environment perception. The previous tasks were satisfactorily approached with convolutional models. Moving on to transformers, object detection was further improved as it is more effective on detecting multi-scale objects. The self-attention module of transformers was able to implement that requirement and introduce contextual information that convolutions were not able to. However, unlike classification or even object detection, semantic segmentation requires multiple scale recognition of objects' shapes. Transformers were able to perform this task, however, the architecture philosophy needed to be changed in order to scale up performance in a more demanding task. Encoder-decoder architectures are remains from the classification task as they transform information to a lower dimension producing the single class label. Later approaches attempted to introduce multiple resolutions by using residual connections from encoder to decoder in order to prevent this loss of information. This technique, though, still faces the problem of processing information without loss and that is where multiple resolutions introduce a solution to the problem. After the extended background research, multiple resolutions are dominating SOTA and improve their respective single resolution models. Theoretically, multiple resolutions can only improve a model as they introduce extra information than the information produced in the original model. Mask2Former is a multi-purpose segmentation model that can be trained without changing architecture in : semantic segmentation, instance segmentation, and panoptic segmentation. It is composed of a pixel-level module, a transformer decoder, and a segmentation head. The pixel-level module in this model can be any feature extraction model, however, up until now only encoder-decoder architectures have been used. Thus, in this diploma research the goal is to introduce high resolution to the Mask2Former pixel-level module in prospects of improving its performance in semantic segmentation. We achieved through the multi-resolutional architecture an improvement of 0.3mIoU to the original model's performance in Cityscapes and a 0.2mIoU improvement in ADE20k.	en
heal.abstract	Η Όραση Υπολογιστών είναι ένας τομέας στην επιστήμη των υπολογιστών που στοχεύει στην ενίσχυση της οπτικής αντίληψης των υπολογιστών. Με πολλές εφαρμογές σε διαφορετικούς τομείς όπως ο αυτόματος πιλότος, η ιατρική απεικόνιση, η ασφάλεια, η γεωργία κ.λπ., η πρόοδος της Όρασης Υπολογιστών βρίσκεται στο επίκεντρο της προσοχής. Οι εργασίες ή οι στόχοι της γίνονται συνεχώς πιο απαιτητικές. Αρχικά, η εργασία της "κατηγοριοποίησης" ταξινομεί μια εικόνα σε μια κλάση ενώ η "ανίχνευση αντικειμένων" προσδιορίζει όλα τα αντικείμενα σε μια εικόνα. Στη συνέχεια, εισάγεται η αυξανόμενης περιπλοκότητας εργασία της "σημασιολογικής κατάτμησης" που ζητά την κατηγοριοποίηση κάθε pixel σε μια εικόνα. Η σημασιολογική κατάτμηση είναι ζωτικής σημασίας σε εφαρμογές του πραγματικού κόσμου, καθώς επιτρέπει την πλήρη αντίληψη του περιβάλλοντος. Οι πιο πρώιμες εργασίες προσεγγίζονται ικανοποιητικά με συνελικτικά μοντέλα. Με την εισαγωγή των μετασχηματιστών, η ανίχνευση αντικειμένων βελτιώθηκε περαιτέρω καθώς είναι πιο αποτελεσματικοί στην ανίχνευση αντικειμένων πολλαπλής κλίμακας. Η μονάδα "αυτο-προσοχής" των μετασχηματιστών κατάφερε να ικανοποιήσει αυτήν την απαίτηση ανιχνευσης πολλαπλών κλιμάκων και να εισάγει πληροφορίες συμφραζόμενων που δεν ήταν σε θέση να κάνουν τα συνελικτικά στοχεία. Η σημασιολογική κατάτμηση είναι μια ακόμη πιο περίπλοκη διαδικασία καθώς απαιτεί αναγνώριση του σχήματος ενός αντικειμένου σε πολλαπλές κλίμακες. Οι μετασχηματιστές ήταν σε θέση να εκτελέσουν αυτήν την εργασία, ωστόσο, η φιλοσοφία της αρχιτεκτονικής έπρεπε να αλλάξει προκειμένου να αυξηθεί η απόδοση σε αυτήν την πιο απαιτητική εργασία. Οι αρχιτεκτονικές κωδικοποιητή-αποκωδικοποιητή λειτουργούσαν αποτελεσματικά στην ταξινόμηση καθώς μετατρέπουν τις πληροφορίες εισόδου σε μια χαμηλότερη διάσταση εξάγοντας έτσι την μοναδική κλάση. Μεταγενέστερες προσεγγίσεις προσπάθησαν να εισάγουν πολλαπλές αναλύσεις χρησιμοποιώντας υπολειμματικές συνδέσεις από τον κωδικοποιητή στον αποκωδικοποιητή προκειμένου να αποτραπεί αυτή η απώλεια πληροφοριών. Αυτή η τεχνική, ωστόσο, εξακολουθεί να αντιμετωπίζει το πρόβλημα της επεξεργασίας πληροφοριών χωρίς απώλεια και εκεί είναι όπου οι πολλαπλές αναλύσεις εισάγουν μια λύση στο πρόβλημα. Μετά από εκτεταμένη έρευνα, οι πολλαπλές αναλύσεις παρατηρούμε ότι κυριαρχούν στα SOTA και βελτιώνουν τα αντίστοιχα μοντέλα μεμονωμένης ανάλυσης. Θεωρητικά, οι πολλαπλές αναλύσεις μπορούν μόνο να βελτιώσουν ένα μοντέλο, καθώς εισάγουν επιπλέον πληροφορίες από τις πληροφορίες που παράγονται στο αρχικό μοντέλο. Το Mask2Former είναι ένα μοντέλο κατάτμησης πολλαπλών χρήσεων που μπορεί να εκπαιδευτεί χωρίς αλλαγή αρχιτεκτονικής σε: σημασιολογική κατάτμηση, κατάτμηση αντικειμένων και πανοπτική κατάτμηση. Αποτελείται από μονάδα επιπεδου pixel, έναν αποκωδικοποιητή μετασχηματιστή και μια κεφαλή κατάτμησης. Η μονάδα επιπέδου pixel μπορεί να αντικατασταθεί από οποιοδήποτε μοντέλο ταξινόμησης pixel, ωστόσο, μέχρι τώρα έχουν χρησιμοποιηθεί μόνο αρχιτεκτονικές μορφής κωδικοποιητή-αποκωδικοποιητή. Έτσι, σε αυτή τη διπλωματική εργασία ο στόχος είναι να χρησιμοποιηθούν αρχιτεκτονικές πολλαπλών αναλύσεων στην μονάδα επιπεδου pixel του Mask2Former με προοπτικές βελτίωσης της απόδοσής του στη σημασιολογική κατάτμηση. Ύστερα από πειραματισμούς επιτεύχθηκε η βελτίωση της απόδοσης της αρχικής αρχιτεκτονικής κατά 0.3mIoU στο Cityscapes και κατά 0.2mIoU στο ADE20k σύνολο δεδομένων.	el
heal.advisorName	Μαραγκός, Πέτρος	el
heal.advisorName	Σακαρίδης, Χρήστος	el
heal.committeeMemberName	Ποταμιάνος, Αλέξανδρος	el
heal.committeeMemberName	Μαραγκός, Πέτρος	el
heal.committeeMemberName	Ροντογιάννης, Αθανάσιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων	el
heal.academicPublisherID	ntua
heal.numberOfPages	126 σ.	el
heal.fullTextAvailability	false