HEAL DSpace

Exploring pooling methods in deep metric learning: A performance analysis on benchmark datasets

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Τσιγαρίδα, Δέσποινα el
dc.contributor.author Tsigarida, Despoina en
dc.date.accessioned 2025-04-02T05:57:44Z
dc.date.available 2025-04-02T05:57:44Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/61554
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29250
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Γεωπληροφορική” el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Computer vision en
dc.subject Υπολογιστική όραση el
dc.subject Deep metric learning en
dc.subject Βαθιά μετρική μάθηση el
dc.subject Neural networks en
dc.subject Νευρωνικά δίκτυα el
dc.subject Image retrieval en
dc.subject Αναζήτηση εικόνας el
dc.title Exploring pooling methods in deep metric learning: A performance analysis on benchmark datasets en
heal.type masterThesis
heal.secondaryTitle Εξερεύνηση Μεθόδων Συγκέντρωσης στη Μετρική Βαθιάς Μάθησης: Ανάλυση Απόδοσης σε Σύνολα Δεδομένων Αναφοράς el
heal.classification Machine learning en
heal.classification Μηχανική μάθηση el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-10-30
heal.abstract Image retrieval is one of the fundamental tasks within computer vision, especially in dealing with big data where fast and efficient retrieval of images will is important. Deep metric learning has become a strong approach to this task since it consists of mapping images into an embedding space where similar images are close. A critical component in this process is the choice of pooling method, which aggregates feature maps into a fixed-size representation. This thesis evaluates and compares ten different traditional (GAP, GMP, GAP + GMP) and advanced pooling methods (LSEPool, GeM, GeneralizedMP, slot-attention, squeeze-and-excitation, ViTs, SimPool) within the context of deep metric learning, focusing on their impact on image retrieval performance. Experiments were conducted using two benchmark datasets: CARS-196 and CUB-200-2011. The performance of each method was assessed using the Recall@k metric, offering a detailed analysis of how pooling choices influence retrieval accuracy. The results show that different pooling methods excel at each benchmark dataset. More specifically, for CUB-200-2011 dataset, the SimPool pooling method had the best performance in all metric recalls, while for CARS-196 dataset squeeze-and-excitation excelled. However, in both datasets, the worst performance showed the Global Average Pooling (GAP). These findings provide new insights into the role of pooling methods in deep metric learning and their adaptability to image retrieval tasks, particularly in fine-grained domains. The contributions of this thesis include a comprehensive comparison of pooling methods for image retrieval, specific insights into their performance on fine-grained datasets, and a set of recommendations for selecting pooling techniques based on task requirements. The challenges encountered during this research, including computational limitations and dataset-specific difficulties, are also discussed in detail. en
heal.abstract Η αναζήτηση εικόνας (image retrieval) είναι μία από τις πιο σημαντικότερες και θεμελιώδεις εργασίες στον τομέα της υπολογιστικής όρασης (computer vision), ιδίως όταν χρησιμοποιούνται μεγάλες βάσεις δεδομένων όπου η ταχεία και αποδοτική ανάκτηση εικόνων είναι απαραίτητη. Σε αυτό το πλαίσιο, η εκμάθηση μετρικής (deep metric learning) έχει αναδειχθεί ως μια ισχυρή προσέγγιση, καθώς αποσκοπεί στην αναπαράσταση των εικόνων σε έναν χώρο ενσωματώσεων (embedding space), όπου οι παρόμοιες εικόνες τοποθετούνται κοντά η μία στην άλλη, διευκολύνοντας έτσι την ανακτήσιμότητά τους. Ένα κρίσιμο στοιχείο στη διαδικασία αυτή είναι η επιλογή της μεθόδου συγκέντρωσης (pooling), η οποία χρησιμοποιείται για την ένωση των χαρακτηριστικών που εξάγονται από τα νευρωνικά δίκτυα σε μια σταθερού μεγέθους αναπαράσταση (embedding). Η παρούσα διπλωματική εργασία, εστίασε στην αξιολόγηση και σύγκριση δέκα διαφορετικών παραδοσιακών και προηγμένων μεθόδων συγκέντρωσης στο πλαίσιο της εκμάθησης μετρικής, δίνοντας έμφαση στην επίδρασή τους όσον αφορά την απόδοση της ανάκτησης εικόνας. Για την εκτέλεση των πειραμάτων, χρησιμοποιήθηκαν δύο αναγνωρίσιμα σύνολα δεδομένων: το CARS-196, το οποίο περιλαμβάνει διάφορα μοντέλα αυτοκινήτων, και το CUB-200-2011, που περιέχει λεπτομερείς εικόνες πτηνών. Η απόδοση κάθε μεθόδου αξιολογήθηκε με βάση τη μετρική Recall@k, προσφέροντας μια λεπτομερή ανάλυση του τρόπου με τον οποίο οι μέθοδοι συγκέντρωσης επηρεάζουν την ακρίβεια της ανάκτησης εικόνας. Τα αποτέλσματα της έρευνας δείχνουν ότι οι διάφορες μέθοδοι συγκέντρωσης ξεχωρίζουν σε διαφορετικά σύνολα δεδομένων. Ειδικότερα, για το σύνολο δεδομένων CUB-200-2011, η μέθοδος SimPool παρουσίασε την καλύτερη απόδοση σε όλα τα επίπεδα της μετρικής, ενώ για το CARS-196, η μέθοδος squeeze-and-excitation παρουσίασε εξαιρετική απόδοση, αφού ήρθε πρώτη σε όλα τα επίπεδα της μετρικής. Ωστόσο, και στα δύο σύνολα δεδομένων, η μέθοδος Global Average Pooling (GAP) παρουσίασε τη χειρότερη απόδοση. Αυτές οι διαπιστώσεις προσφέρουν νέες γνώσεις σχετικά με τον ρόλο των μεθόδων συγκέντρωσης στην εκμάθηση μετρικής και την προσαρμοστικότητά τους σε εργασίες ανάκτησης εικόνας, ειδικά σε τομείς όπου απαιτείται λεπτομερής διάκριση χαρακτηριστικών. Οι κύριες συνεισφορές αυτής της διπλωματικής εργασίας περιλαμβάνουν μια ολοκληρωμένη σύγκριση των μεθόδων συγκέντρωσης για την ανάκτηση εικόνας, καθώς και γνώσεις σχετικά με τις επιδόσεις τους σε σύνολα δεδομένων, προσδιορίζοντας τις δυνατότητες και τα όρια κάθε μεθόδου. Κατά τη διάρκεια διεξαγωγής των πειραμάτων, η κύρια πρόκληση που αντιμετωπίστηκε ήταν ο περιορισμός των υπολογιστικών πόρων, αφού η έκμάθηση μετρικής απαιτεί υπολογιστική δύναμη. el
heal.advisorName Karantzalos, Konstantinos en
heal.advisorName Καράντζαλος, Κωνσταντίνος el
heal.committeeMemberName Karantzalos, Konstantinos en
heal.committeeMemberName Καράντζαλος, Κωνσταντίνος el
heal.committeeMemberName Andronis, Vasileios en
heal.committeeMemberName Ανδρώνης, Βασίλειος el
heal.committeeMemberName Papoutsis, Ioannis en
heal.committeeMemberName Παπουτσής, Ιωάννης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Αγρονόμων και Τοπογράφων Μηχανικών. el
heal.academicPublisherID ntua
heal.numberOfPages 83 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα