dc.contributor.author | Μπενέτου, Σμαραγδή | el |
dc.contributor.author | Benetou, Smaragdi | en |
dc.date.accessioned | 2024-05-27T08:57:13Z | |
dc.date.available | 2024-05-27T08:57:13Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/59480 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.27176 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Machine Learning | en |
dc.subject | Computer Vision | en |
dc.subject | Semantic Segmentation | en |
dc.subject | Transformers | en |
dc.subject | Multiple Resolutions | en |
dc.subject | Μηχανική Μάθηση | el |
dc.subject | Σημασιολογική Κατάτμηση | el |
dc.subject | Μετασχηματιστές | el |
dc.subject | Όραση Υπολογιστών | el |
dc.subject | Πολλαπλές Αναλύσεις | el |
dc.title | Πολλαπλές αναλύσεις στην σημασιολογική κατάτμηση εικόνων | el |
dc.title | Multiple resolutions in semantic image segmentation | en |
heal.type | bachelorThesis | |
heal.secondaryTitle | Introducing multiple resolutions to Mask2Former backbone | en |
heal.secondaryTitle | Εισαγωγή πολλαπλών αναλύσεων στην ραχοκοκαλιά του Mask2Former | el |
heal.classification | Machine Learning | el |
heal.classification | Computer Vision | el |
heal.classification | Μηχανική Μάθηση | el |
heal.classification | Όραση Υπολογιστών | el |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-10-20 | |
heal.abstract | Computer vision is a field in computer science aiming to enhance visual perception of computers. With numerous applications in different areas such as autopilot, medical imaging, security, agriculture etc., computer vision advancement is at the center of attention. Its tasks or goals are constantly getting more demanding. It started from classification which classifies an image. Then object detection was tackled which identifies all the objects in an image. Finally, semantic segmentation was introduced which requests for classification of every pixel in an image. Semantic segmentation is crucial in real-world applications as it would allow for complete environment perception. The previous tasks were satisfactorily approached with convolutional models. Moving on to transformers, object detection was further improved as it is more effective on detecting multi-scale objects. The self-attention module of transformers was able to implement that requirement and introduce contextual information that convolutions were not able to. However, unlike classification or even object detection, semantic segmentation requires multiple scale recognition of objects' shapes. Transformers were able to perform this task, however, the architecture philosophy needed to be changed in order to scale up performance in a more demanding task. Encoder-decoder architectures are remains from the classification task as they transform information to a lower dimension producing the single class label. Later approaches attempted to introduce multiple resolutions by using residual connections from encoder to decoder in order to prevent this loss of information. This technique, though, still faces the problem of processing information without loss and that is where multiple resolutions introduce a solution to the problem. After the extended background research, multiple resolutions are dominating SOTA and improve their respective single resolution models. Theoretically, multiple resolutions can only improve a model as they introduce extra information than the information produced in the original model. Mask2Former is a multi-purpose segmentation model that can be trained without changing architecture in : semantic segmentation, instance segmentation, and panoptic segmentation. It is composed of a pixel-level module, a transformer decoder, and a segmentation head. The pixel-level module in this model can be any feature extraction model, however, up until now only encoder-decoder architectures have been used. Thus, in this diploma research the goal is to introduce high resolution to the Mask2Former pixel-level module in prospects of improving its performance in semantic segmentation. We achieved through the multi-resolutional architecture an improvement of 0.3mIoU to the original model's performance in Cityscapes and a 0.2mIoU improvement in ADE20k. | en |
heal.abstract | Η Όραση Υπολογιστών είναι ένας τομέας στην επιστήμη των υπολογιστών που στοχεύει στην ενίσχυση της οπτικής αντίληψης των υπολογιστών. Με πολλές εφαρμογές σε διαφορετικούς τομείς όπως ο αυτόματος πιλότος, η ιατρική απεικόνιση, η ασφάλεια, η γεωργία κ.λπ., η πρόοδος της Όρασης Υπολογιστών βρίσκεται στο επίκεντρο της προσοχής. Οι εργασίες ή οι στόχοι της γίνονται συνεχώς πιο απαιτητικές. Αρχικά, η εργασία της "κατηγοριοποίησης" ταξινομεί μια εικόνα σε μια κλάση ενώ η "ανίχνευση αντικειμένων" προσδιορίζει όλα τα αντικείμενα σε μια εικόνα. Στη συνέχεια, εισάγεται η αυξανόμενης περιπλοκότητας εργασία της "σημασιολογικής κατάτμησης" που ζητά την κατηγοριοποίηση κάθε pixel σε μια εικόνα. Η σημασιολογική κατάτμηση είναι ζωτικής σημασίας σε εφαρμογές του πραγματικού κόσμου, καθώς επιτρέπει την πλήρη αντίληψη του περιβάλλοντος. Οι πιο πρώιμες εργασίες προσεγγίζονται ικανοποιητικά με συνελικτικά μοντέλα. Με την εισαγωγή των μετασχηματιστών, η ανίχνευση αντικειμένων βελτιώθηκε περαιτέρω καθώς είναι πιο αποτελεσματικοί στην ανίχνευση αντικειμένων πολλαπλής κλίμακας. Η μονάδα "αυτο-προσοχής" των μετασχηματιστών κατάφερε να ικανοποιήσει αυτήν την απαίτηση ανιχνευσης πολλαπλών κλιμάκων και να εισάγει πληροφορίες συμφραζόμενων που δεν ήταν σε θέση να κάνουν τα συνελικτικά στοχεία. Η σημασιολογική κατάτμηση είναι μια ακόμη πιο περίπλοκη διαδικασία καθώς απαιτεί αναγνώριση του σχήματος ενός αντικειμένου σε πολλαπλές κλίμακες. Οι μετασχηματιστές ήταν σε θέση να εκτελέσουν αυτήν την εργασία, ωστόσο, η φιλοσοφία της αρχιτεκτονικής έπρεπε να αλλάξει προκειμένου να αυξηθεί η απόδοση σε αυτήν την πιο απαιτητική εργασία. Οι αρχιτεκτονικές κωδικοποιητή-αποκωδικοποιητή λειτουργούσαν αποτελεσματικά στην ταξινόμηση καθώς μετατρέπουν τις πληροφορίες εισόδου σε μια χαμηλότερη διάσταση εξάγοντας έτσι την μοναδική κλάση. Μεταγενέστερες προσεγγίσεις προσπάθησαν να εισάγουν πολλαπλές αναλύσεις χρησιμοποιώντας υπολειμματικές συνδέσεις από τον κωδικοποιητή στον αποκωδικοποιητή προκειμένου να αποτραπεί αυτή η απώλεια πληροφοριών. Αυτή η τεχνική, ωστόσο, εξακολουθεί να αντιμετωπίζει το πρόβλημα της επεξεργασίας πληροφοριών χωρίς απώλεια και εκεί είναι όπου οι πολλαπλές αναλύσεις εισάγουν μια λύση στο πρόβλημα. Μετά από εκτεταμένη έρευνα, οι πολλαπλές αναλύσεις παρατηρούμε ότι κυριαρχούν στα SOTA και βελτιώνουν τα αντίστοιχα μοντέλα μεμονωμένης ανάλυσης. Θεωρητικά, οι πολλαπλές αναλύσεις μπορούν μόνο να βελτιώσουν ένα μοντέλο, καθώς εισάγουν επιπλέον πληροφορίες από τις πληροφορίες που παράγονται στο αρχικό μοντέλο. Το Mask2Former είναι ένα μοντέλο κατάτμησης πολλαπλών χρήσεων που μπορεί να εκπαιδευτεί χωρίς αλλαγή αρχιτεκτονικής σε: σημασιολογική κατάτμηση, κατάτμηση αντικειμένων και πανοπτική κατάτμηση. Αποτελείται από μονάδα επιπεδου pixel, έναν αποκωδικοποιητή μετασχηματιστή και μια κεφαλή κατάτμησης. Η μονάδα επιπέδου pixel μπορεί να αντικατασταθεί από οποιοδήποτε μοντέλο ταξινόμησης pixel, ωστόσο, μέχρι τώρα έχουν χρησιμοποιηθεί μόνο αρχιτεκτονικές μορφής κωδικοποιητή-αποκωδικοποιητή. Έτσι, σε αυτή τη διπλωματική εργασία ο στόχος είναι να χρησιμοποιηθούν αρχιτεκτονικές πολλαπλών αναλύσεων στην μονάδα επιπεδου pixel του Mask2Former με προοπτικές βελτίωσης της απόδοσής του στη σημασιολογική κατάτμηση. Ύστερα από πειραματισμούς επιτεύχθηκε η βελτίωση της απόδοσης της αρχικής αρχιτεκτονικής κατά 0.3mIoU στο Cityscapes και κατά 0.2mIoU στο ADE20k σύνολο δεδομένων. | el |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.advisorName | Σακαρίδης, Χρήστος | el |
heal.committeeMemberName | Ποταμιάνος, Αλέξανδρος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Ροντογιάννης, Αθανάσιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 126 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: