Σύγκριση και βελτίωση μεθόδων συγκέντρωσης στην εκμάθηση μετρικής

Κοντός, Δημήτριος; Kontos, Dimitriοs

dc.contributor.author	Κοντός, Δημήτριος	el
dc.contributor.author	Kontos, Dimitriοs	en
dc.date.accessioned	2025-10-30T08:38:51Z
dc.date.available	2025-10-30T08:38:51Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/62799
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.30495
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Metric Learning	en
dc.subject	Neural Networks	en
dc.subject	Pooling Methods	en
dc.subject	Image Retrieval	en
dc.subject	Embedding Representations	en
dc.subject	Εκμάθηση Μετρικής	el
dc.subject	Νευρωνικά Δίκτυα	el
dc.subject	Μέθοδοι Συγκέντρωσης	el
dc.subject	Ανάκτηση Εικόνων	el
dc.subject	Αναπαραστάσεις Χαρακτηριστικών	el
dc.title	Σύγκριση και βελτίωση μεθόδων συγκέντρωσης στην εκμάθηση μετρικής	el
dc.title	Comparison and Improvement of Pooling Methods in Metric Learning	en
heal.type	masterThesis
heal.classification	Βαθιά Μάθηση	el
heal.classification	Deep Learning	en
heal.classification	Όραση Υπολογιστών	el
heal.classification	Computer Vision	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-02-28
heal.abstract	Pooling methods play a crucial role in Deep Metric Learning (DML) by transforming high-dimensional feature representations into compact embeddings that influence retrieval accuracy. This thesis investigates the effectiveness of various pooling strategies, including traditional, learnable, and hybrid approaches, in enhancing feature aggregation for DML tasks. A key focus is on the comparative performance of these methods across different neural architectures, examining their impact on representation learning and retrieval performance. The study systematically evaluates pooling strategies in both convolutional and transformer-based models, considering their adaptability to diverse datasets and retrieval scenarios. The findings suggest that pooling effectiveness is highly dependent on model architecture, with learnable pooling methods showing advantages in certain contexts while more traditional approaches remain competitive in others. Additionally, the study explores pooling combinations and parameterized pooling variations, assessing their influence on feature discrimination and stability. By providing a structured analysis of pooling techniques, this research contributes to a deeper understanding of their role in metric learning. The results emphasize the importance of selecting appropriate pooling strategies based on model characteristics and dataset properties, offering insights that can guide the development of more effective retrieval-based deep learning systems.	en
heal.abstract	Οι μέθοδοι συγκέντρωσης (pooling) αποτελούν βασικό μηχανισμό στη βαθιά εκμάθηση μετρικής (Deep Metric Learning - DML), καθώς επιτρέπουν τη συμπίεση και μετασχηματισμό των χαρακτηριστικών ενός νευρωνικού δικτύου σε αποδοτικές αναπαραστάσεις για ανάκτηση εικόνων. Η παρούσα διπλωματική εργασία εστιάζει στη συγκριτική αξιολόγηση παραδοσιακών, μαθησιακών (learnable) και υβριδικών μεθόδων συγκέντρωσης, καθώς και στη διερεύνηση νέων προσεγγίσεων, προκειμένου να βελτιωθεί η απόδοση σε προβλήματα ανάκτησης. Στο πλαίσιο αυτό, προτείνεται μία νέα μέθοδος συγκέντρωσης, η AVGPool, καθώς και αρκετές παραλλαγές της SimPool, οι οποίες ενσωματώνουν διαφορετικές τεχνικές για τη ρύθμιση της βαρύτητας των χαρακτηριστικών. Οι μέθοδοι αυτές αξιολογούνται σε διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων, συγκεκριμένα σε συνελικτικά νευρωνικά δίκτυα (CNNs) και μετασχηματιστές οράσεως (Vision Transformers - ViTs), καθώς και σε πολλαπλά σύνολα δεδομένων που διαφέρουν ως προς την ποικιλομορφία και τη δυσκολία ανάκτησης. Τα πειραματικά αποτελέσματα αναδεικνύουν τη σημαντική επίδραση της επιλογής μεθόδου συγκέντρωσης στην ποιότητα των αναπαραστάσεων και, κατά συνέπεια, στην ακρίβεια της ανάκτησης. Στα CNNs, οι παραλλαγές της SimPool, όπως η 1η Παραλλαγή που ενσωματώνει κανονικοποίηση των χαρακτηριστικών πριν από την εφαρμογή συγκέντρωσης και η 4η Παραλλαγή που δίνει έμφαση στη ρύθμιση των κλειδιών (keys) του μηχανισμού προσοχής, αποδεικνύονται ιδιαίτερα αποδοτικές σε σύνολα δεδομένων υψηλής λεπτομέρειας. Από την άλλη πλευρά, στα ViTs, οι διαφορές μεταξύ των μεθόδων συγκέντρωσης είναι λιγότερο έντονες, με την κλασική μέθοδο Global Average Pooling (GAP) να παραμένει η πιο αξιόπιστη επιλογή, γεγονός που υποδεικνύει την κυρίαρχη επίδραση των μηχανισμών αυτοπροσοχής στη διαδικασία εξαγωγής χαρακτηριστικών. Η εργασία εξετάζει επίσης τη χρήση προσαρμοζόμενων (learnable) μεθόδων συγκέντρωσης, όπως οι παραλλαγές της Generalized Mean Pooling (GeM), στις οποίες η εκθετική παράμετρος προσαρμόζεται δυναμικά στη δομή των δεδομένων. Οι μέθοδοι αυτές παρουσιάζουν ενδιαφέροντα πλεονεκτήματα, ιδιαίτερα σε σύνολα δεδομένων με υψηλή ενδοκλασική ποικιλομορφία, επιτρέποντας μια πιο ευέλικτη προσαρμογή της συγκέντρωσης στα ιδιαίτερα χαρακτηριστικά κάθε εικόνας. Ωστόσο, διαπιστώνεται ότι απαιτούν προσεκτική επιλογή υπερπαραμέτρων, καθώς μπορεί να προκύψουν προβλήματα σταθερότητας κατά την εκπαίδευση του μοντέλου. Επιπλέον, διερευνώνται υβριδικές μέθοδοι συγκέντρωσης που συνδυάζουν διαφορετικές τεχνικές, όπως η σύζευξη της GAP με προσαρμοζόμενες μεθόδους συγκέντρωσης. Αν και οι συνδυασμένες μέθοδοι παρουσιάζουν βελτίωση σε ορισμένες περιπτώσεις, η εργασία καταλήγει στο συμπέρασμα ότι η αύξηση της πολυπλοκότητας δεν συνεπάγεται πάντα καλύτερα αποτελέσματα, υπογραμμίζοντας τη σημασία της προσεκτικής σχεδίασης των στρατηγικών συγκέντρωσης. Συνολικά, η παρούσα διπλωματική παρέχει μία ολοκληρωμένη ανάλυση του ρόλου των μεθόδων συγκέντρωσης στη βαθιά εκμάθηση μετρικής, αναδεικνύοντας τις επιπτώσεις της αρχιτεκτονικής του μοντέλου, της πολυπλοκότητας των δεδομένων και της προσαρμοστικότητας της συγκέντρωσης στην ποιότητα ανάκτησης. Τα αποτελέσματα επιβεβαιώνουν ότι η επιλογή κατάλληλης μεθόδου συγκέντρωσης είναι καθοριστική για τη βελτιστοποίηση της απόδοσης των συστημάτων DML, ενώ η εργασία προσφέρει νέες κατευθύνσεις για την περαιτέρω διερεύνηση και ανάπτυξη βελτιωμένων στρατηγικών συγκέντρωσης.	el
heal.advisorName	Καράντζαλος, Κωνσταντίνος	el
heal.advisorName	Karantzalos, Konstantinos	en
heal.committeeMemberName	Στάμου, Γιώργος	el
heal.committeeMemberName	Stamou, Giorgos	en
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.committeeMemberName	Voulodimos, Athanasios	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	127 σ.	el
heal.fullTextAvailability	false