HEAL DSpace

Σύγκριση και βελτίωση μεθόδων συγκέντρωσης στην εκμάθηση μετρικής

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κοντός, Δημήτριος el
dc.contributor.author Kontos, Dimitriοs en
dc.date.accessioned 2025-10-30T08:38:51Z
dc.date.available 2025-10-30T08:38:51Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62799
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30495
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Metric Learning en
dc.subject Neural Networks en
dc.subject Pooling Methods en
dc.subject Image Retrieval en
dc.subject Embedding Representations en
dc.subject Εκμάθηση Μετρικής el
dc.subject Νευρωνικά Δίκτυα el
dc.subject Μέθοδοι Συγκέντρωσης el
dc.subject Ανάκτηση Εικόνων el
dc.subject Αναπαραστάσεις Χαρακτηριστικών el
dc.title Σύγκριση και βελτίωση μεθόδων συγκέντρωσης στην εκμάθηση μετρικής el
dc.title Comparison and Improvement of Pooling Methods in Metric Learning en
heal.type masterThesis
heal.classification Βαθιά Μάθηση el
heal.classification Deep Learning en
heal.classification Όραση Υπολογιστών el
heal.classification Computer Vision en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-02-28
heal.abstract Pooling methods play a crucial role in Deep Metric Learning (DML) by transforming high-dimensional feature representations into compact embeddings that influence retrieval accuracy. This thesis investigates the effectiveness of various pooling strategies, including traditional, learnable, and hybrid approaches, in enhancing feature aggregation for DML tasks. A key focus is on the comparative performance of these methods across different neural architectures, examining their impact on representation learning and retrieval performance. The study systematically evaluates pooling strategies in both convolutional and transformer-based models, considering their adaptability to diverse datasets and retrieval scenarios. The findings suggest that pooling effectiveness is highly dependent on model architecture, with learnable pooling methods showing advantages in certain contexts while more traditional approaches remain competitive in others. Additionally, the study explores pooling combinations and parameterized pooling variations, assessing their influence on feature discrimination and stability. By providing a structured analysis of pooling techniques, this research contributes to a deeper understanding of their role in metric learning. The results emphasize the importance of selecting appropriate pooling strategies based on model characteristics and dataset properties, offering insights that can guide the development of more effective retrieval-based deep learning systems. en
heal.abstract Οι μέθοδοι συγκέντρωσης (pooling) αποτελούν βασικό μηχανισμό στη βαθιά εκμάθηση μετρικής (Deep Metric Learning - DML), καθώς επιτρέπουν τη συμπίεση και μετασχηματισμό των χαρακτηριστικών ενός νευρωνικού δικτύου σε αποδοτικές αναπαραστάσεις για ανάκτηση εικόνων. Η παρούσα διπλωματική εργασία εστιάζει στη συγκριτική αξιολόγηση παραδοσιακών, μαθησιακών (learnable) και υβριδικών μεθόδων συγκέντρωσης, καθώς και στη διερεύνηση νέων προσεγγίσεων, προκειμένου να βελτιωθεί η απόδοση σε προβλήματα ανάκτησης. Στο πλαίσιο αυτό, προτείνεται μία νέα μέθοδος συγκέντρωσης, η AVGPool, καθώς και αρκετές παραλλαγές της SimPool, οι οποίες ενσωματώνουν διαφορετικές τεχνικές για τη ρύθμιση της βαρύτητας των χαρακτηριστικών. Οι μέθοδοι αυτές αξιολογούνται σε διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων, συγκεκριμένα σε συνελικτικά νευρωνικά δίκτυα (CNNs) και μετασχηματιστές οράσεως (Vision Transformers - ViTs), καθώς και σε πολλαπλά σύνολα δεδομένων που διαφέρουν ως προς την ποικιλομορφία και τη δυσκολία ανάκτησης. Τα πειραματικά αποτελέσματα αναδεικνύουν τη σημαντική επίδραση της επιλογής μεθόδου συγκέντρωσης στην ποιότητα των αναπαραστάσεων και, κατά συνέπεια, στην ακρίβεια της ανάκτησης. Στα CNNs, οι παραλλαγές της SimPool, όπως η 1η Παραλλαγή που ενσωματώνει κανονικοποίηση των χαρακτηριστικών πριν από την εφαρμογή συγκέντρωσης και η 4η Παραλλαγή που δίνει έμφαση στη ρύθμιση των κλειδιών (keys) του μηχανισμού προσοχής, αποδεικνύονται ιδιαίτερα αποδοτικές σε σύνολα δεδομένων υψηλής λεπτομέρειας. Από την άλλη πλευρά, στα ViTs, οι διαφορές μεταξύ των μεθόδων συγκέντρωσης είναι λιγότερο έντονες, με την κλασική μέθοδο Global Average Pooling (GAP) να παραμένει η πιο αξιόπιστη επιλογή, γεγονός που υποδεικνύει την κυρίαρχη επίδραση των μηχανισμών αυτοπροσοχής στη διαδικασία εξαγωγής χαρακτηριστικών. Η εργασία εξετάζει επίσης τη χρήση προσαρμοζόμενων (learnable) μεθόδων συγκέντρωσης, όπως οι παραλλαγές της Generalized Mean Pooling (GeM), στις οποίες η εκθετική παράμετρος προσαρμόζεται δυναμικά στη δομή των δεδομένων. Οι μέθοδοι αυτές παρουσιάζουν ενδιαφέροντα πλεονεκτήματα, ιδιαίτερα σε σύνολα δεδομένων με υψηλή ενδοκλασική ποικιλομορφία, επιτρέποντας μια πιο ευέλικτη προσαρμογή της συγκέντρωσης στα ιδιαίτερα χαρακτηριστικά κάθε εικόνας. Ωστόσο, διαπιστώνεται ότι απαιτούν προσεκτική επιλογή υπερπαραμέτρων, καθώς μπορεί να προκύψουν προβλήματα σταθερότητας κατά την εκπαίδευση του μοντέλου. Επιπλέον, διερευνώνται υβριδικές μέθοδοι συγκέντρωσης που συνδυάζουν διαφορετικές τεχνικές, όπως η σύζευξη της GAP με προσαρμοζόμενες μεθόδους συγκέντρωσης. Αν και οι συνδυασμένες μέθοδοι παρουσιάζουν βελτίωση σε ορισμένες περιπτώσεις, η εργασία καταλήγει στο συμπέρασμα ότι η αύξηση της πολυπλοκότητας δεν συνεπάγεται πάντα καλύτερα αποτελέσματα, υπογραμμίζοντας τη σημασία της προσεκτικής σχεδίασης των στρατηγικών συγκέντρωσης. Συνολικά, η παρούσα διπλωματική παρέχει μία ολοκληρωμένη ανάλυση του ρόλου των μεθόδων συγκέντρωσης στη βαθιά εκμάθηση μετρικής, αναδεικνύοντας τις επιπτώσεις της αρχιτεκτονικής του μοντέλου, της πολυπλοκότητας των δεδομένων και της προσαρμοστικότητας της συγκέντρωσης στην ποιότητα ανάκτησης. Τα αποτελέσματα επιβεβαιώνουν ότι η επιλογή κατάλληλης μεθόδου συγκέντρωσης είναι καθοριστική για τη βελτιστοποίηση της απόδοσης των συστημάτων DML, ενώ η εργασία προσφέρει νέες κατευθύνσεις για την περαιτέρω διερεύνηση και ανάπτυξη βελτιωμένων στρατηγικών συγκέντρωσης. el
heal.advisorName Καράντζαλος, Κωνσταντίνος el
heal.advisorName Karantzalos, Konstantinos en
heal.committeeMemberName Στάμου, Γιώργος el
heal.committeeMemberName Stamou, Giorgos en
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Voulodimos, Athanasios en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 127 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα