Επανεκπαίδευση με επίγνωση κόστους για μοντέλα κωδικοποίησης κόμβων σε δυναμικά δίκτυα

Μανιάτης, Ανδρέας; Maniatis, Andreas

dc.contributor.author	Μανιάτης, Ανδρέας	el
dc.contributor.author	Maniatis, Andreas	en
dc.date.accessioned	2024-06-17T09:37:13Z
dc.date.available	2024-06-17T09:37:13Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/59713
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.27409
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Δυναμικοί γράφοι	el
dc.subject	Node Embeddings	en
dc.subject	Αλγόριθμος απόφασης επανεκπαίδευσης	el
dc.subject	Data Drift	en
dc.subject	Model Staleness	en
dc.subject	Κόστος επανεκπαίδευσης	el
dc.subject	GraphSAGE	en
dc.subject	Neural Graph Networks	en
dc.title	Επανεκπαίδευση με επίγνωση κόστους για μοντέλα κωδικοποίησης κόμβων σε δυναμικά δίκτυα	el
heal.type	bachelorThesis
heal.classification	Αναπαραστάσεις δικτύων	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-03-14
heal.abstract	Η παρούσα διπλωματική εργασία εξετάζει μοντέλα αναπαράστασης κόμβων γράφων σε δυναμικό περιβάλλον και προτείνει μια ολοκληρωμένη πρόταση για την αποδοτική τους επανεκπαίδευση με βάση το κόστος εκπαίδευσης, αλλά και την τρέχουσα ακρίβεια τους. Αρχικά, παρουσιάζεται το θεωρητικό πλαίσο της ολίσθησης δεδομένων (data drift) και πώς αυτό παρουσιάζεται σε προβλήματα μηχανικής μάθησης για ευκλείδεια δεδομένα, επηρεάζοντας την ακρίβεια των online μοντέλων και ακολουθεί η συσχέτιση του φαινομένου αυτού με το κόστος επανεκπαίδευσης για την εξαγωγή ενός συνολικού κόστους στρατηγικής. Ακολουθείται η θεμελίωση της λογική της στασιμότητας μοντέλου (model staleness) που εισάγεται από προηγούμενη έρευνα, έτσι ώστε η υποβάθμιση της προβλεπτικής ικανότητας του μοντέλου να υπολογιστεί με βάση συγκεκριμένο όγκο εργασίας (queries). Γίνεται τέλος η σύνδεση του προβλήματος με δεδομένα γράφων με την πρόταση απεικόνισης των γραφικών δεδομένων σε διανυσματικό πεδίο και τη χρήση του νευρωνικού μοντέλου γράφων, GraphSAGE. Τέλος παρουσιάζουμε πώς θα χρησιμοποιήσουμε τον αλγόριθμο CARA, που έχει προταθεί για ευκλείδεια δεδομένα, για το πρόβλημά μας και την τελική υλοποίηση της συνάρτησης απόφασης για την πληροφορημένη επανεκπαίδευση μοντέλων. Αρχικά, προχωρούμε με μια μελέτη της συμπεριφοράς του μοντέλου GraphSAGE για δυναμικούς γράφους και το πώς η ακρίβειά του στην εργασία της πρόβλεψης ετικετών κόμβων γράφου επηρεάζεται από τον τρόπο δυναμικής ανάπτυξής του (θεωρία ομοφιλίας). Στη συνέχεια, εξετάζουμε μια πλήρη σειρά πειραμάτων πάνω σε συνθετικά δεδομένα, ώστε να δοκιμάσουμε τις υποθέσεις μας και λαμβάνουμε αποτελέσματά που επιβεβαιώνουν την αποτελεσματικότητα του μοντέλου απόφασης σε δυναμικούς γράφους. Τέλος, δοκιμάζουμε το μοντέλο μας σε ένα σύνολο δεδομένων που προσεγγίζει αριθμό κόμβων της τάξης 106 και παίρνουμε ικανοποιητικά αποτελέσματα που ξεπερνούν συμβατικά baselines και προσεγγίζουν τη βέλτιστη λύση.	el
heal.abstract	This thesis examines graph representation models in a dynamic environment and proposes a comprehensive proposal for their efficient retraining based on both cost and accuracy. First, the theoretical framework of data drift and how it occurs in machine learning problems for Euclidean data, affecting the accuracy of online models is presented, followed by the correlation of this phenomenon with the retraining cost to derive an overall strategy cost. The logic of model staleness introduced by previous research is followed, so that the degradation of the model’s predictive ability is calculated based on a certain workload, called queries. We finally make the connection to the graph data problem by proposing a vector field representation of the graph data and the use of the graph neural model, GraphSAGE. Finally, we show how we use the algorithm CARA, proposed for Euclidean data, for our problem and the final implementation of the decision function for informed model retraining. First, we proceed with a study of the behavior of the GraphSAGE model for dynamic graphs and how its accuracy in the task of predicting graph node labels is affected by the way it is expanded (homophily theory). We then consider a full set of experiments on synthetic data to test our hypotheses and obtain results that confirm the effectiveness of the decision algorithms on dynamic graphs. Finally, we test our model on a big real-world dataset of the order of 106 nodes and obtain satisfactory results that outperform conventional baselines and approximate the optimal solution.	en
heal.advisorName	Παπαβασιλείου, Συμεών	el
heal.committeeMemberName	Μαθιουδάκης, Μιχαήλ	el
heal.committeeMemberName	Στάη, Ελένη	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	85 σ.	el
heal.fullTextAvailability	false