HEAL DSpace

Πολλαπλές αναλύσεις στην σημασιολογική κατάτμηση εικόνων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μπενέτου, Σμαραγδή el
dc.contributor.author Benetou, Smaragdi en
dc.date.accessioned 2024-05-27T08:57:13Z
dc.date.available 2024-05-27T08:57:13Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59480
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.27176
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Machine Learning en
dc.subject Computer Vision en
dc.subject Semantic Segmentation en
dc.subject Transformers en
dc.subject Multiple Resolutions en
dc.subject Μηχανική Μάθηση el
dc.subject Σημασιολογική Κατάτμηση el
dc.subject Μετασχηματιστές el
dc.subject Όραση Υπολογιστών el
dc.subject Πολλαπλές Αναλύσεις el
dc.title Πολλαπλές αναλύσεις στην σημασιολογική κατάτμηση εικόνων el
dc.title Multiple resolutions in semantic image segmentation en
heal.type bachelorThesis
heal.secondaryTitle Introducing multiple resolutions to Mask2Former backbone en
heal.secondaryTitle Εισαγωγή πολλαπλών αναλύσεων στην ραχοκοκαλιά του Mask2Former el
heal.classification Machine Learning el
heal.classification Computer Vision el
heal.classification Μηχανική Μάθηση el
heal.classification Όραση Υπολογιστών el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-10-20
heal.abstract Computer vision is a field in computer science aiming to enhance visual perception of computers. With numerous applications in different areas such as autopilot, medical imaging, security, agriculture etc., computer vision advancement is at the center of attention. Its tasks or goals are constantly getting more demanding. It started from classification which classifies an image. Then object detection was tackled which identifies all the objects in an image. Finally, semantic segmentation was introduced which requests for classification of every pixel in an image. Semantic segmentation is crucial in real-world applications as it would allow for complete environment perception. The previous tasks were satisfactorily approached with convolutional models. Moving on to transformers, object detection was further improved as it is more effective on detecting multi-scale objects. The self-attention module of transformers was able to implement that requirement and introduce contextual information that convolutions were not able to. However, unlike classification or even object detection, semantic segmentation requires multiple scale recognition of objects' shapes. Transformers were able to perform this task, however, the architecture philosophy needed to be changed in order to scale up performance in a more demanding task. Encoder-decoder architectures are remains from the classification task as they transform information to a lower dimension producing the single class label. Later approaches attempted to introduce multiple resolutions by using residual connections from encoder to decoder in order to prevent this loss of information. This technique, though, still faces the problem of processing information without loss and that is where multiple resolutions introduce a solution to the problem. After the extended background research, multiple resolutions are dominating SOTA and improve their respective single resolution models. Theoretically, multiple resolutions can only improve a model as they introduce extra information than the information produced in the original model. Mask2Former is a multi-purpose segmentation model that can be trained without changing architecture in : semantic segmentation, instance segmentation, and panoptic segmentation. It is composed of a pixel-level module, a transformer decoder, and a segmentation head. The pixel-level module in this model can be any feature extraction model, however, up until now only encoder-decoder architectures have been used. Thus, in this diploma research the goal is to introduce high resolution to the Mask2Former pixel-level module in prospects of improving its performance in semantic segmentation. We achieved through the multi-resolutional architecture an improvement of 0.3mIoU to the original model's performance in Cityscapes and a 0.2mIoU improvement in ADE20k. en
heal.abstract Η Όραση Υπολογιστών είναι ένας τομέας στην επιστήμη των υπολογιστών που στοχεύει στην ενίσχυση της οπτικής αντίληψης των υπολογιστών. Με πολλές εφαρμογές σε διαφορετικούς τομείς όπως ο αυτόματος πιλότος, η ιατρική απεικόνιση, η ασφάλεια, η γεωργία κ.λπ., η πρόοδος της Όρασης Υπολογιστών βρίσκεται στο επίκεντρο της προσοχής. Οι εργασίες ή οι στόχοι της γίνονται συνεχώς πιο απαιτητικές. Αρχικά, η εργασία της "κατηγοριοποίησης" ταξινομεί μια εικόνα σε μια κλάση ενώ η "ανίχνευση αντικειμένων" προσδιορίζει όλα τα αντικείμενα σε μια εικόνα. Στη συνέχεια, εισάγεται η αυξανόμενης περιπλοκότητας εργασία της "σημασιολογικής κατάτμησης" που ζητά την κατηγοριοποίηση κάθε pixel σε μια εικόνα. Η σημασιολογική κατάτμηση είναι ζωτικής σημασίας σε εφαρμογές του πραγματικού κόσμου, καθώς επιτρέπει την πλήρη αντίληψη του περιβάλλοντος. Οι πιο πρώιμες εργασίες προσεγγίζονται ικανοποιητικά με συνελικτικά μοντέλα. Με την εισαγωγή των μετασχηματιστών, η ανίχνευση αντικειμένων βελτιώθηκε περαιτέρω καθώς είναι πιο αποτελεσματικοί στην ανίχνευση αντικειμένων πολλαπλής κλίμακας. Η μονάδα "αυτο-προσοχής" των μετασχηματιστών κατάφερε να ικανοποιήσει αυτήν την απαίτηση ανιχνευσης πολλαπλών κλιμάκων και να εισάγει πληροφορίες συμφραζόμενων που δεν ήταν σε θέση να κάνουν τα συνελικτικά στοχεία. Η σημασιολογική κατάτμηση είναι μια ακόμη πιο περίπλοκη διαδικασία καθώς απαιτεί αναγνώριση του σχήματος ενός αντικειμένου σε πολλαπλές κλίμακες. Οι μετασχηματιστές ήταν σε θέση να εκτελέσουν αυτήν την εργασία, ωστόσο, η φιλοσοφία της αρχιτεκτονικής έπρεπε να αλλάξει προκειμένου να αυξηθεί η απόδοση σε αυτήν την πιο απαιτητική εργασία. Οι αρχιτεκτονικές κωδικοποιητή-αποκωδικοποιητή λειτουργούσαν αποτελεσματικά στην ταξινόμηση καθώς μετατρέπουν τις πληροφορίες εισόδου σε μια χαμηλότερη διάσταση εξάγοντας έτσι την μοναδική κλάση. Μεταγενέστερες προσεγγίσεις προσπάθησαν να εισάγουν πολλαπλές αναλύσεις χρησιμοποιώντας υπολειμματικές συνδέσεις από τον κωδικοποιητή στον αποκωδικοποιητή προκειμένου να αποτραπεί αυτή η απώλεια πληροφοριών. Αυτή η τεχνική, ωστόσο, εξακολουθεί να αντιμετωπίζει το πρόβλημα της επεξεργασίας πληροφοριών χωρίς απώλεια και εκεί είναι όπου οι πολλαπλές αναλύσεις εισάγουν μια λύση στο πρόβλημα. Μετά από εκτεταμένη έρευνα, οι πολλαπλές αναλύσεις παρατηρούμε ότι κυριαρχούν στα SOTA και βελτιώνουν τα αντίστοιχα μοντέλα μεμονωμένης ανάλυσης. Θεωρητικά, οι πολλαπλές αναλύσεις μπορούν μόνο να βελτιώσουν ένα μοντέλο, καθώς εισάγουν επιπλέον πληροφορίες από τις πληροφορίες που παράγονται στο αρχικό μοντέλο. Το Mask2Former είναι ένα μοντέλο κατάτμησης πολλαπλών χρήσεων που μπορεί να εκπαιδευτεί χωρίς αλλαγή αρχιτεκτονικής σε: σημασιολογική κατάτμηση, κατάτμηση αντικειμένων και πανοπτική κατάτμηση. Αποτελείται από μονάδα επιπεδου pixel, έναν αποκωδικοποιητή μετασχηματιστή και μια κεφαλή κατάτμησης. Η μονάδα επιπέδου pixel μπορεί να αντικατασταθεί από οποιοδήποτε μοντέλο ταξινόμησης pixel, ωστόσο, μέχρι τώρα έχουν χρησιμοποιηθεί μόνο αρχιτεκτονικές μορφής κωδικοποιητή-αποκωδικοποιητή. Έτσι, σε αυτή τη διπλωματική εργασία ο στόχος είναι να χρησιμοποιηθούν αρχιτεκτονικές πολλαπλών αναλύσεων στην μονάδα επιπεδου pixel του Mask2Former με προοπτικές βελτίωσης της απόδοσής του στη σημασιολογική κατάτμηση. Ύστερα από πειραματισμούς επιτεύχθηκε η βελτίωση της απόδοσης της αρχικής αρχιτεκτονικής κατά 0.3mIoU στο Cityscapes και κατά 0.2mIoU στο ADE20k σύνολο δεδομένων. el
heal.advisorName Μαραγκός, Πέτρος el
heal.advisorName Σακαρίδης, Χρήστος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 126 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα