dc.contributor.author | Τσιγαρίδα, Δέσποινα![]() |
el |
dc.contributor.author | Tsigarida, Despoina![]() |
en |
dc.date.accessioned | 2025-04-02T05:57:44Z | |
dc.date.available | 2025-04-02T05:57:44Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/61554 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.29250 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Γεωπληροφορική” | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Computer vision | en |
dc.subject | Υπολογιστική όραση | el |
dc.subject | Deep metric learning | en |
dc.subject | Βαθιά μετρική μάθηση | el |
dc.subject | Neural networks | en |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | Image retrieval | en |
dc.subject | Αναζήτηση εικόνας | el |
dc.title | Exploring pooling methods in deep metric learning: A performance analysis on benchmark datasets | en |
heal.type | masterThesis | |
heal.secondaryTitle | Εξερεύνηση Μεθόδων Συγκέντρωσης στη Μετρική Βαθιάς Μάθησης: Ανάλυση Απόδοσης σε Σύνολα Δεδομένων Αναφοράς | el |
heal.classification | Machine learning | en |
heal.classification | Μηχανική μάθηση | el |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-10-30 | |
heal.abstract | Image retrieval is one of the fundamental tasks within computer vision, especially in dealing with big data where fast and efficient retrieval of images will is important. Deep metric learning has become a strong approach to this task since it consists of mapping images into an embedding space where similar images are close. A critical component in this process is the choice of pooling method, which aggregates feature maps into a fixed-size representation. This thesis evaluates and compares ten different traditional (GAP, GMP, GAP + GMP) and advanced pooling methods (LSEPool, GeM, GeneralizedMP, slot-attention, squeeze-and-excitation, ViTs, SimPool) within the context of deep metric learning, focusing on their impact on image retrieval performance. Experiments were conducted using two benchmark datasets: CARS-196 and CUB-200-2011. The performance of each method was assessed using the Recall@k metric, offering a detailed analysis of how pooling choices influence retrieval accuracy. The results show that different pooling methods excel at each benchmark dataset. More specifically, for CUB-200-2011 dataset, the SimPool pooling method had the best performance in all metric recalls, while for CARS-196 dataset squeeze-and-excitation excelled. However, in both datasets, the worst performance showed the Global Average Pooling (GAP). These findings provide new insights into the role of pooling methods in deep metric learning and their adaptability to image retrieval tasks, particularly in fine-grained domains. The contributions of this thesis include a comprehensive comparison of pooling methods for image retrieval, specific insights into their performance on fine-grained datasets, and a set of recommendations for selecting pooling techniques based on task requirements. The challenges encountered during this research, including computational limitations and dataset-specific difficulties, are also discussed in detail. | en |
heal.abstract | Η αναζήτηση εικόνας (image retrieval) είναι μία από τις πιο σημαντικότερες και θεμελιώδεις εργασίες στον τομέα της υπολογιστικής όρασης (computer vision), ιδίως όταν χρησιμοποιούνται μεγάλες βάσεις δεδομένων όπου η ταχεία και αποδοτική ανάκτηση εικόνων είναι απαραίτητη. Σε αυτό το πλαίσιο, η εκμάθηση μετρικής (deep metric learning) έχει αναδειχθεί ως μια ισχυρή προσέγγιση, καθώς αποσκοπεί στην αναπαράσταση των εικόνων σε έναν χώρο ενσωματώσεων (embedding space), όπου οι παρόμοιες εικόνες τοποθετούνται κοντά η μία στην άλλη, διευκολύνοντας έτσι την ανακτήσιμότητά τους. Ένα κρίσιμο στοιχείο στη διαδικασία αυτή είναι η επιλογή της μεθόδου συγκέντρωσης (pooling), η οποία χρησιμοποιείται για την ένωση των χαρακτηριστικών που εξάγονται από τα νευρωνικά δίκτυα σε μια σταθερού μεγέθους αναπαράσταση (embedding). Η παρούσα διπλωματική εργασία, εστίασε στην αξιολόγηση και σύγκριση δέκα διαφορετικών παραδοσιακών και προηγμένων μεθόδων συγκέντρωσης στο πλαίσιο της εκμάθησης μετρικής, δίνοντας έμφαση στην επίδρασή τους όσον αφορά την απόδοση της ανάκτησης εικόνας. Για την εκτέλεση των πειραμάτων, χρησιμοποιήθηκαν δύο αναγνωρίσιμα σύνολα δεδομένων: το CARS-196, το οποίο περιλαμβάνει διάφορα μοντέλα αυτοκινήτων, και το CUB-200-2011, που περιέχει λεπτομερείς εικόνες πτηνών. Η απόδοση κάθε μεθόδου αξιολογήθηκε με βάση τη μετρική Recall@k, προσφέροντας μια λεπτομερή ανάλυση του τρόπου με τον οποίο οι μέθοδοι συγκέντρωσης επηρεάζουν την ακρίβεια της ανάκτησης εικόνας. Τα αποτέλσματα της έρευνας δείχνουν ότι οι διάφορες μέθοδοι συγκέντρωσης ξεχωρίζουν σε διαφορετικά σύνολα δεδομένων. Ειδικότερα, για το σύνολο δεδομένων CUB-200-2011, η μέθοδος SimPool παρουσίασε την καλύτερη απόδοση σε όλα τα επίπεδα της μετρικής, ενώ για το CARS-196, η μέθοδος squeeze-and-excitation παρουσίασε εξαιρετική απόδοση, αφού ήρθε πρώτη σε όλα τα επίπεδα της μετρικής. Ωστόσο, και στα δύο σύνολα δεδομένων, η μέθοδος Global Average Pooling (GAP) παρουσίασε τη χειρότερη απόδοση. Αυτές οι διαπιστώσεις προσφέρουν νέες γνώσεις σχετικά με τον ρόλο των μεθόδων συγκέντρωσης στην εκμάθηση μετρικής και την προσαρμοστικότητά τους σε εργασίες ανάκτησης εικόνας, ειδικά σε τομείς όπου απαιτείται λεπτομερής διάκριση χαρακτηριστικών. Οι κύριες συνεισφορές αυτής της διπλωματικής εργασίας περιλαμβάνουν μια ολοκληρωμένη σύγκριση των μεθόδων συγκέντρωσης για την ανάκτηση εικόνας, καθώς και γνώσεις σχετικά με τις επιδόσεις τους σε σύνολα δεδομένων, προσδιορίζοντας τις δυνατότητες και τα όρια κάθε μεθόδου. Κατά τη διάρκεια διεξαγωγής των πειραμάτων, η κύρια πρόκληση που αντιμετωπίστηκε ήταν ο περιορισμός των υπολογιστικών πόρων, αφού η έκμάθηση μετρικής απαιτεί υπολογιστική δύναμη. | el |
heal.advisorName | Karantzalos, Konstantinos | en |
heal.advisorName | Καράντζαλος, Κωνσταντίνος | el |
heal.committeeMemberName | Karantzalos, Konstantinos | en |
heal.committeeMemberName | Καράντζαλος, Κωνσταντίνος | el |
heal.committeeMemberName | Andronis, Vasileios | en |
heal.committeeMemberName | Ανδρώνης, Βασίλειος | el |
heal.committeeMemberName | Papoutsis, Ioannis | en |
heal.committeeMemberName | Παπουτσής, Ιωάννης | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Αγρονόμων και Τοπογράφων Μηχανικών. | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 83 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: