Integrating a graph database as a machine learning feature store registry

Panigyraki, Chrysoula; Πανηγυράκη, Χρυσούλα

dc.contributor.author	Panigyraki, Chrysoula	en
dc.contributor.author	Πανηγυράκη, Χρυσούλα	en
dc.date.accessioned	2025-07-29T10:38:55Z
dc.date.available	2025-07-29T10:38:55Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/62217
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.29913
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Μηχανική Μάθηση	el
dc.subject	Αποθήκη Χαρακτηριστικών	el
dc.subject	Κατάλογος Χαρακτηριστικών Γράφου	el
dc.subject	Βάση Δεδομένων Γράφων	el
dc.subject	Machine Learning	en
dc.subject	Feature Store	en
dc.subject	Feast	en
dc.subject	Graph-based Feature Registry	en
dc.subject	Graph Database	en
dc.subject	Neo4j	en
dc.subject	Γενεαλογία	el
dc.subject	Lineage	en
dc.title	Integrating a graph database as a machine learning feature store registry	en
dc.title	Ενσωμάτωση βάσης δεδομένων γράφων ως μητρώο αποθήκευσης χαρακτηριστικών μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Machine Learning	en
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2025-02-27
heal.abstract	Η ταχεία εξέλιξη των συστημάτων μηχανικής μάθησης και η εκτεταμένη εφαρμογή τους σε περιβάλλοντα παραγωγής έχουν αναδείξει την ανάγκη για αξιόπιστες και κλιμακούμενες λύσεις για τη διαχείριση χαρακτηριστικών (features). Η αποθήκη χαρακτηριστικών (feature store), ένα αποθετήριο που ελέγχει κεντρικά τα χαρακτηριστικά που χρησιμοποιούνται στην εκπαίδευση και την εξαγωγή συμπερασμάτων των μοντέλων, είναι αναπόσπαστο κομμάτι αυτών των συστημάτων. Συμβατικά, τα feature stores αποθηκεύουν μεταδεδομένα χαρακτηριστικών και στοιχεία γενεαλογίας σε καταλόγους βασισμένους σε SQL. Αυτή η μέθοδος δεν μπορεί να μοντελοποιήσει και να υποβάλει ερωτήματα αποτελεσματικά σε χαρακτηριστικά και οντότητες με πολύπλοκες εξαρτήσεις μεταξύ τους, ενώ υπάρχουν εναλλακτικά εργαλεία που προορίζονται για τέτοιες εργασίες. Η παρούσα μελέτη διερευνά κατά πόσον μια βάση δεδομένων γράφων μπορεί να λειτουργήσει ως κατάλογος χαρακτηριστικών, αξιοποιώντας την εγγενή ικανότητά της να αναπαριστά περίπλοκες σχέσεις και γενεαλογία με πιο φυσικό τρόπο. Αυτή η εργασία επεκτείνει το Feast, ένα feature store ανοικτού κώδικα που χρησιμοποιείται ευρέως στη βιομηχανία, με έναν κατάλογο βασισμένο στο Neo4j, χτίζοντας πάνω σε προηγούμενες έρευνες που δίνουν έμφαση στα πλεονεκτήματα των βάσεων δεδομένων γράφων στις διασχίσεις πολλαπλών βημάτων και στις αναζητήσεις που βασίζονται σε σχέσεις. Η προσέγγισή μας μοντελοποιεί τα αντικείμενα του feature store ως κόμβους, με τις εξαρτήσεις και τη διαδοχή τους να αποτυπώνονται ως σχέσεις. Προστέθηκε νέα λειτουργικότητα για την ανίχνευση σχέσεων μεταξύ χαρακτηριστικών, μαζί με προσαρμοσμένες εντολές CLI που σχεδιάστηκαν για να επωφεληθούν από την περιγραφική δύναμη των ερωτημάτων γράφων. Για την αξιολόγηση της προτεινόμενης λύσης, πραγματοποιήθηκαν δοκιμές επιδόσεων μετρώντας τον χρόνο εκτέλεσης, χρησιμοποιώντας καταλόγους που βασίζονται σε γράφους, σε SQL και σε αρχεία. Τα αποτελέσματα υποδεικνύουν ότι ο κατάλογος με βάση τον γράφο υπερέχει στη διαχείριση περίπλοκων σχέσεων πολλαπλών βημάτων και είναι ιδιαίτερα αποτελεσματικός για εφαρμογές που απαιτούν βαθιά ανάλυση εξαρτήσεων. Ωστόσο, τα πλεονεκτήματά του όσον αφορά τη χρηστικότητα και τις επιδόσεις είναι πιο αισθητά όταν τα ερωτήματα περιλαμβάνουν πολύπλοκες διασχίσεις σχέσεων, ενώ για απλούστερα, πιο άμεσα ερωτήματα τα οφέλη του μπορεί να είναι λιγότερο σημαντικά και να επισκιάζονται από την επιβάρυνση του προγραμματισμού των ερωτημάτων. Εν κατακλείδι, η παρούσα μελέτη καταδεικνύει πώς οι βάσεις δεδομένων γράφων μπορούν να αναπαραστήσουν αποτελεσματικά τις περίπλοκες σχέσεις μεταξύ των πληροφοριών, βελτιώνοντας τη διαχείριση και την ερμηνευσιμότητα των συστημάτων μηχανικής μάθησης. Προσφέροντας εμπειρική απόδειξη των πλεονεκτημάτων και των μειονεκτημάτων των μεθόδων που βασίζονται σε γράφους, όχι μόνο καλύπτει ένα κενό στη βιβλιογραφία για τα feature stores, αλλά ανοίγει, επίσης, τον δρόμο για περαιτέρω έρευνα σε υβριδικές αρχιτεκτονικές καταλόγων, που μπορούν να εξισορροπήσουν δυναμικά τα προτερήματα διαφόρων συστημάτων backend και να βελτιστοποιήσουν τις ερωτήσεις γράφων.	el
heal.abstract	The rapid evolution of machine learning systems and their extended application in production environments have unveiled the need for robust and scalable feature management solutions. The feature store, a repository that centrally controls features used in model training and inference, is essential to these systems. Traditionally, feature stores have stored feature metadata and lineage data in SQL-based registries. This method cannot effectively model and query complex dependencies between features and entities, whereas there are alternative tools intended for such tasks. This study investigates whether a graph database can function as a feature store registry, leveraging its native capability to represent intricate relationships and lineage in a more natural manner. This work extends Feast, an open-source feature store that is widely used in industry, with a Neo4j-backed registry, building on previous research that emphasizes the strengths of graph databases in multi-hop traversals and relationship-based searches. Our approach models feature store objects as nodes, with their dependencies and lineage captured as relationships. New functionality was added to detect relationships between features, along with custom CLI commands designed to benefit from the descriptive power of graph queries. To evaluate the proposed solution, performance tests were conducted measuring execution time across graph-based, SQL-based and file-based registries. The results indicate that the graph-based registry excels in managing intricate, multi-hop relationships and is particularly effective for applications requiring deep dependency analysis. However, its usability and performance advantages are most pronounced when the query patterns involve complex relationship traversals, whereas for simpler, more direct queries its benefits may be less significant and may get overshadowed by the query planning overhead. In conclusion, this study demonstrates how graph databases may effectively represent the intricate relationships between information, improving the management and interpretability of machine learning systems. By offering empirical proof of the advantages and disadvantages of graph-based methods, it not only closes a gap in the feature store literature but also paves the way for further research into hybrid registry architectures that can dynamically balance the advantages of several backend systems and optimize graph operations.	en
heal.advisorName	Tsoumakos, Dimitrios	en
heal.committeeMemberName	Goumas, Georgios	en
heal.committeeMemberName	Voulodimos, Athanasios	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων	el
heal.academicPublisherID	ntua
heal.numberOfPages	69 σ.	el
heal.fullTextAvailability	false