HEAL DSpace

Επανεκπαίδευση με επίγνωση κόστους για μοντέλα κωδικοποίησης κόμβων σε δυναμικά δίκτυα

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μανιάτης, Ανδρέας el
dc.contributor.author Maniatis, Andreas en
dc.date.accessioned 2024-06-17T09:37:13Z
dc.date.available 2024-06-17T09:37:13Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59713
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.27409
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Δυναμικοί γράφοι el
dc.subject Node Embeddings en
dc.subject Αλγόριθμος απόφασης επανεκπαίδευσης el
dc.subject Data Drift en
dc.subject Model Staleness en
dc.subject Κόστος επανεκπαίδευσης el
dc.subject GraphSAGE en
dc.subject Neural Graph Networks en
dc.title Επανεκπαίδευση με επίγνωση κόστους για μοντέλα κωδικοποίησης κόμβων σε δυναμικά δίκτυα el
heal.type bachelorThesis
heal.classification Αναπαραστάσεις δικτύων el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-03-14
heal.abstract Η παρούσα διπλωματική εργασία εξετάζει μοντέλα αναπαράστασης κόμβων γράφων σε δυναμικό περιβάλλον και προτείνει μια ολοκληρωμένη πρόταση για την αποδοτική τους επανεκπαίδευση με βάση το κόστος εκπαίδευσης, αλλά και την τρέχουσα ακρίβεια τους. Αρχικά, παρουσιάζεται το θεωρητικό πλαίσο της ολίσθησης δεδομένων (data drift) και πώς αυτό παρουσιάζεται σε προβλήματα μηχανικής μάθησης για ευκλείδεια δεδομένα, επηρεάζοντας την ακρίβεια των online μοντέλων και ακολουθεί η συσχέτιση του φαινομένου αυτού με το κόστος επανεκπαίδευσης για την εξαγωγή ενός συνολικού κόστους στρατηγικής. Ακολουθείται η θεμελίωση της λογική της στασιμότητας μοντέλου (model staleness) που εισάγεται από προηγούμενη έρευνα, έτσι ώστε η υποβάθμιση της προβλεπτικής ικανότητας του μοντέλου να υπολογιστεί με βάση συγκεκριμένο όγκο εργασίας (queries). Γίνεται τέλος η σύνδεση του προβλήματος με δεδομένα γράφων με την πρόταση απεικόνισης των γραφικών δεδομένων σε διανυσματικό πεδίο και τη χρήση του νευρωνικού μοντέλου γράφων, GraphSAGE. Τέλος παρουσιάζουμε πώς θα χρησιμοποιήσουμε τον αλγόριθμο CARA, που έχει προταθεί για ευκλείδεια δεδομένα, για το πρόβλημά μας και την τελική υλοποίηση της συνάρτησης απόφασης για την πληροφορημένη επανεκπαίδευση μοντέλων. Αρχικά, προχωρούμε με μια μελέτη της συμπεριφοράς του μοντέλου GraphSAGE για δυναμικούς γράφους και το πώς η ακρίβειά του στην εργασία της πρόβλεψης ετικετών κόμβων γράφου επηρεάζεται από τον τρόπο δυναμικής ανάπτυξής του (θεωρία ομοφιλίας). Στη συνέχεια, εξετάζουμε μια πλήρη σειρά πειραμάτων πάνω σε συνθετικά δεδομένα, ώστε να δοκιμάσουμε τις υποθέσεις μας και λαμβάνουμε αποτελέσματά που επιβεβαιώνουν την αποτελεσματικότητα του μοντέλου απόφασης σε δυναμικούς γράφους. Τέλος, δοκιμάζουμε το μοντέλο μας σε ένα σύνολο δεδομένων που προσεγγίζει αριθμό κόμβων της τάξης 106 και παίρνουμε ικανοποιητικά αποτελέσματα που ξεπερνούν συμβατικά baselines και προσεγγίζουν τη βέλτιστη λύση. el
heal.abstract This thesis examines graph representation models in a dynamic environment and proposes a comprehensive proposal for their efficient retraining based on both cost and accuracy. First, the theoretical framework of data drift and how it occurs in machine learning problems for Euclidean data, affecting the accuracy of online models is presented, followed by the correlation of this phenomenon with the retraining cost to derive an overall strategy cost. The logic of model staleness introduced by previous research is followed, so that the degradation of the model’s predictive ability is calculated based on a certain workload, called queries. We finally make the connection to the graph data problem by proposing a vector field representation of the graph data and the use of the graph neural model, GraphSAGE. Finally, we show how we use the algorithm CARA, proposed for Euclidean data, for our problem and the final implementation of the decision function for informed model retraining. First, we proceed with a study of the behavior of the GraphSAGE model for dynamic graphs and how its accuracy in the task of predicting graph node labels is affected by the way it is expanded (homophily theory). We then consider a full set of experiments on synthetic data to test our hypotheses and obtain results that confirm the effectiveness of the decision algorithms on dynamic graphs. Finally, we test our model on a big real-world dataset of the order of 106 nodes and obtain satisfactory results that outperform conventional baselines and approximate the optimal solution. en
heal.advisorName Παπαβασιλείου, Συμεών el
heal.committeeMemberName Μαθιουδάκης, Μιχαήλ el
heal.committeeMemberName Στάη, Ελένη el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής el
heal.academicPublisherID ntua
heal.numberOfPages 85 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα