HEAL DSpace

A data-driven approach to the approximate nearest neighbor problem

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Καλαβάς, Ανδρέας el
dc.contributor.author Kalavas, Andreas en
dc.date.accessioned 2025-01-14T11:57:33Z
dc.date.available 2025-01-14T11:57:33Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60730
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28426
dc.rights Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-sa/3.0/gr/ *
dc.subject Approximation en
dc.subject Optimization en
dc.subject Nearest neighbor en
dc.subject Data structures en
dc.subject Data-driven algorithms en
dc.subject Προσεγγιστικοί αλγόριθμοι el
dc.subject Βελτιστοποίηση el
dc.subject Κοντινότερος γείτονας el
dc.subject Δομές δεδομένων el
dc.subject Αλγόριθμοι καθοδηγούμενοι από δεδομένα el
dc.title A data-driven approach to the approximate nearest neighbor problem en
dc.title Δομές καθοδηγούμενες από δεδομένα για την προσέγγιση κοντινότερων γειτόνων el
heal.type bachelorThesis
heal.classification Computational Geometry en
heal.classification Υπολογιστική Γεωμετρία el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-09
heal.abstract The nearest neighbor search (NNS) problem and its variants have captivated scientists for the past fifty years. This problem is prevalent in applications such as data compression, data mining, and machine learning. Although numerous solutions have been proposed, few offer theoretical guarantees while simultaneously optimizing the structure for the input data. This challenge arises because adapting the structure for a specific dataset can expose vulnerabilities to adversarial queries, leading to suboptimal performance. In this thesis, we propose a new model to solve the approximate near neighbor problem (which is the decision version of the nearest neighbor problem), aiming to balance theoret ical guarantees with dataset adaptability. Our approach involves storing the input point set in a binary tree structure, optimized for performance on a fixed dataset and query distribution. Queries are processed by traversing from the root to one or more leaves. The decision to follow one or both child nodes is determined by separators located at the vertices. Additionally, we present methods for identifying those separators optimally. The core idea of our approach is to extract useful information from the point set to enhance our structure, but to halt this extraction when it becomes potentially harmful. When this happens, we transition to an existing technique that offers theoretical guar antees. This strategy allows us to leverage the efficiency of our model while avoiding elements that could degrade performance. Thus, our structure remains data-driven while maintaining theoretical guarantees. Finally, we conduct experiments to demonstrate our algorithm’s adaptability to a dataset while preserving its theoretical guarantees. Specifically, we assess our model on the MNIST dataset, by performing queries on model instances built on different sized samples. We then compare our results with those of linear search. en
heal.abstract Το πρόβλημα της εύρεσης κοντινότερου γείτονα και οι παραλλαγές του απασχολούν την επιστημονική κοινότητα τα τελευταία πενήντα χρόνια. Εμφανίζεται σε εφαρμογές όπως συμπίεση δεδομένων, εξόρυξη δεδομένων και μηχανική μάθηση. Παρόλο που έχουν προταθεί πολλές λύσεις, λίγες μόνο παρέχουν θεωρητικές εγγυήσεις, ενώ παράλληλα βελτιστοποιούν τη δομή για τα δεδομένα εισόδου. Στην παρούσα εργασία, παρουσιάζουμε ένα νέο μοντέλο για τη λύση του προβλήματος του κατά προσέγγιση κοντινού γείτονα (που είναι η εκδοχή απόφασης του προβλήματος του κοντινότερου γείτονα), στοχεύοντας να ισορροπήσουμε θεωρητικές εγγυήσεις με τη δυνατότητα προσαρμογής στο σύνολο δεδομένων. Η προσέγγισή μας είναι να αποθηκεύσουμε το σύνολο σημείων εισόδου σε μια δομή δυαδικού δέντρου, η οποία είναι βελτιστοποιημένη για το συγκεκριμένο σύνολο δεδομένων και την συγκεκριμένη κατανομή ερωτημάτων. Η αναζήτηση ερωτημάτων γίνεται διασχίζοντας το δέντρο από τη ρίζα προς ένα ή περισσότερα φύλλα. Η απόφαση για το αν η αναζήτηση θα συνεχίσει στο ένα ή και στα δύο παιδιά γίνεται με βάση διαχωριστές που βρίσκονται στις κορυφές. Παρουσιάζουμε ακόμη μεθόδους βέλτιστης εύρεσης αυτών των διαχωριστών. Η κεντρική ιδέα της προσέγγισής μας για την βελτιστοποίηση των διαχωριστών έγκειται στο να παίρνουμε χρήσιμη πληροφορία από το σύνολο σημείων για να βελτιώσουμε τη δομή μας, αλλά να σταματάμε αυτή την διαδικασία όταν η πληροφορία μπορεί να γίνει επιβλαβής. el
heal.advisorName Φωτάκης, Δημήτρης el
heal.committeeMemberName Φωτάκης, Δημήτρης el
heal.committeeMemberName Παγουρτζής, Αριστείδης el
heal.committeeMemberName Εμίρης, Ιωάννης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 82 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Παρόμοια Διανομή 3.0 Ελλάδα