HEAL DSpace

Integrating a graph database as a machine learning feature store registry

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Panigyraki, Chrysoula en
dc.contributor.author Πανηγυράκη, Χρυσούλα en
dc.date.accessioned 2025-07-29T10:38:55Z
dc.date.available 2025-07-29T10:38:55Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62217
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29913
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μηχανική Μάθηση el
dc.subject Αποθήκη Χαρακτηριστικών el
dc.subject Κατάλογος Χαρακτηριστικών Γράφου el
dc.subject Βάση Δεδομένων Γράφων el
dc.subject Machine Learning en
dc.subject Feature Store en
dc.subject Feast en
dc.subject Graph-based Feature Registry en
dc.subject Graph Database en
dc.subject Neo4j en
dc.subject Γενεαλογία el
dc.subject Lineage en
dc.title Integrating a graph database as a machine learning feature store registry en
dc.title Ενσωμάτωση βάσης δεδομένων γράφων ως μητρώο αποθήκευσης χαρακτηριστικών μηχανικής μάθησης el
heal.type bachelorThesis
heal.classification Machine Learning en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-02-27
heal.abstract Η ταχεία εξέλιξη των συστημάτων μηχανικής μάθησης και η εκτεταμένη εφαρμογή τους σε περιβάλλοντα παραγωγής έχουν αναδείξει την ανάγκη για αξιόπιστες και κλιμακούμενες λύσεις για τη διαχείριση χαρακτηριστικών (features). Η αποθήκη χαρακτηριστικών (feature store), ένα αποθετήριο που ελέγχει κεντρικά τα χαρακτηριστικά που χρησιμοποιούνται στην εκπαίδευση και την εξαγωγή συμπερασμάτων των μοντέλων, είναι αναπόσπαστο κομμάτι αυτών των συστημάτων. Συμβατικά, τα feature stores αποθηκεύουν μεταδεδομένα χαρακτηριστικών και στοιχεία γενεαλογίας σε καταλόγους βασισμένους σε SQL. Αυτή η μέθοδος δεν μπορεί να μοντελοποιήσει και να υποβάλει ερωτήματα αποτελεσματικά σε χαρακτηριστικά και οντότητες με πολύπλοκες εξαρτήσεις μεταξύ τους, ενώ υπάρχουν εναλλακτικά εργαλεία που προορίζονται για τέτοιες εργασίες. Η παρούσα μελέτη διερευνά κατά πόσον μια βάση δεδομένων γράφων μπορεί να λειτουργήσει ως κατάλογος χαρακτηριστικών, αξιοποιώντας την εγγενή ικανότητά της να αναπαριστά περίπλοκες σχέσεις και γενεαλογία με πιο φυσικό τρόπο. Αυτή η εργασία επεκτείνει το Feast, ένα feature store ανοικτού κώδικα που χρησιμοποιείται ευρέως στη βιομηχανία, με έναν κατάλογο βασισμένο στο Neo4j, χτίζοντας πάνω σε προηγούμενες έρευνες που δίνουν έμφαση στα πλεονεκτήματα των βάσεων δεδομένων γράφων στις διασχίσεις πολλαπλών βημάτων και στις αναζητήσεις που βασίζονται σε σχέσεις. Η προσέγγισή μας μοντελοποιεί τα αντικείμενα του feature store ως κόμβους, με τις εξαρτήσεις και τη διαδοχή τους να αποτυπώνονται ως σχέσεις. Προστέθηκε νέα λειτουργικότητα για την ανίχνευση σχέσεων μεταξύ χαρακτηριστικών, μαζί με προσαρμοσμένες εντολές CLI που σχεδιάστηκαν για να επωφεληθούν από την περιγραφική δύναμη των ερωτημάτων γράφων. Για την αξιολόγηση της προτεινόμενης λύσης, πραγματοποιήθηκαν δοκιμές επιδόσεων μετρώντας τον χρόνο εκτέλεσης, χρησιμοποιώντας καταλόγους που βασίζονται σε γράφους, σε SQL και σε αρχεία. Τα αποτελέσματα υποδεικνύουν ότι ο κατάλογος με βάση τον γράφο υπερέχει στη διαχείριση περίπλοκων σχέσεων πολλαπλών βημάτων και είναι ιδιαίτερα αποτελεσματικός για εφαρμογές που απαιτούν βαθιά ανάλυση εξαρτήσεων. Ωστόσο, τα πλεονεκτήματά του όσον αφορά τη χρηστικότητα και τις επιδόσεις είναι πιο αισθητά όταν τα ερωτήματα περιλαμβάνουν πολύπλοκες διασχίσεις σχέσεων, ενώ για απλούστερα, πιο άμεσα ερωτήματα τα οφέλη του μπορεί να είναι λιγότερο σημαντικά και να επισκιάζονται από την επιβάρυνση του προγραμματισμού των ερωτημάτων. Εν κατακλείδι, η παρούσα μελέτη καταδεικνύει πώς οι βάσεις δεδομένων γράφων μπορούν να αναπαραστήσουν αποτελεσματικά τις περίπλοκες σχέσεις μεταξύ των πληροφοριών, βελτιώνοντας τη διαχείριση και την ερμηνευσιμότητα των συστημάτων μηχανικής μάθησης. Προσφέροντας εμπειρική απόδειξη των πλεονεκτημάτων και των μειονεκτημάτων των μεθόδων που βασίζονται σε γράφους, όχι μόνο καλύπτει ένα κενό στη βιβλιογραφία για τα feature stores, αλλά ανοίγει, επίσης, τον δρόμο για περαιτέρω έρευνα σε υβριδικές αρχιτεκτονικές καταλόγων, που μπορούν να εξισορροπήσουν δυναμικά τα προτερήματα διαφόρων συστημάτων backend και να βελτιστοποιήσουν τις ερωτήσεις γράφων. el
heal.abstract The rapid evolution of machine learning systems and their extended application in production environments have unveiled the need for robust and scalable feature management solutions. The feature store, a repository that centrally controls features used in model training and inference, is essential to these systems. Traditionally, feature stores have stored feature metadata and lineage data in SQL-based registries. This method cannot effectively model and query complex dependencies between features and entities, whereas there are alternative tools intended for such tasks. This study investigates whether a graph database can function as a feature store registry, leveraging its native capability to represent intricate relationships and lineage in a more natural manner. This work extends Feast, an open-source feature store that is widely used in industry, with a Neo4j-backed registry, building on previous research that emphasizes the strengths of graph databases in multi-hop traversals and relationship-based searches. Our approach models feature store objects as nodes, with their dependencies and lineage captured as relationships. New functionality was added to detect relationships between features, along with custom CLI commands designed to benefit from the descriptive power of graph queries. To evaluate the proposed solution, performance tests were conducted measuring execution time across graph-based, SQL-based and file-based registries. The results indicate that the graph-based registry excels in managing intricate, multi-hop relationships and is particularly effective for applications requiring deep dependency analysis. However, its usability and performance advantages are most pronounced when the query patterns involve complex relationship traversals, whereas for simpler, more direct queries its benefits may be less significant and may get overshadowed by the query planning overhead. In conclusion, this study demonstrates how graph databases may effectively represent the intricate relationships between information, improving the management and interpretability of machine learning systems. By offering empirical proof of the advantages and disadvantages of graph-based methods, it not only closes a gap in the feature store literature but also paves the way for further research into hybrid registry architectures that can dynamically balance the advantages of several backend systems and optimize graph operations. en
heal.advisorName Tsoumakos, Dimitrios en
heal.committeeMemberName Goumas, Georgios en
heal.committeeMemberName Voulodimos, Athanasios en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων el
heal.academicPublisherID ntua
heal.numberOfPages 69 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα