dc.contributor.author | Μανιάτης, Ανδρέας | el |
dc.contributor.author | Maniatis, Andreas | en |
dc.date.accessioned | 2024-06-17T09:37:13Z | |
dc.date.available | 2024-06-17T09:37:13Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/59713 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.27409 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Δυναμικοί γράφοι | el |
dc.subject | Node Embeddings | en |
dc.subject | Αλγόριθμος απόφασης επανεκπαίδευσης | el |
dc.subject | Data Drift | en |
dc.subject | Model Staleness | en |
dc.subject | Κόστος επανεκπαίδευσης | el |
dc.subject | GraphSAGE | en |
dc.subject | Neural Graph Networks | en |
dc.title | Επανεκπαίδευση με επίγνωση κόστους για μοντέλα κωδικοποίησης κόμβων σε δυναμικά δίκτυα | el |
heal.type | bachelorThesis | |
heal.classification | Αναπαραστάσεις δικτύων | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-03-14 | |
heal.abstract | Η παρούσα διπλωματική εργασία εξετάζει μοντέλα αναπαράστασης κόμβων γράφων σε δυναμικό περιβάλλον και προτείνει μια ολοκληρωμένη πρόταση για την αποδοτική τους επανεκπαίδευση με βάση το κόστος εκπαίδευσης, αλλά και την τρέχουσα ακρίβεια τους. Αρχικά, παρουσιάζεται το θεωρητικό πλαίσο της ολίσθησης δεδομένων (data drift) και πώς αυτό παρουσιάζεται σε προβλήματα μηχανικής μάθησης για ευκλείδεια δεδομένα, επηρεάζοντας την ακρίβεια των online μοντέλων και ακολουθεί η συσχέτιση του φαινομένου αυτού με το κόστος επανεκπαίδευσης για την εξαγωγή ενός συνολικού κόστους στρατηγικής. Ακολουθείται η θεμελίωση της λογική της στασιμότητας μοντέλου (model staleness) που εισάγεται από προηγούμενη έρευνα, έτσι ώστε η υποβάθμιση της προβλεπτικής ικανότητας του μοντέλου να υπολογιστεί με βάση συγκεκριμένο όγκο εργασίας (queries). Γίνεται τέλος η σύνδεση του προβλήματος με δεδομένα γράφων με την πρόταση απεικόνισης των γραφικών δεδομένων σε διανυσματικό πεδίο και τη χρήση του νευρωνικού μοντέλου γράφων, GraphSAGE. Τέλος παρουσιάζουμε πώς θα χρησιμοποιήσουμε τον αλγόριθμο CARA, που έχει προταθεί για ευκλείδεια δεδομένα, για το πρόβλημά μας και την τελική υλοποίηση της συνάρτησης απόφασης για την πληροφορημένη επανεκπαίδευση μοντέλων. Αρχικά, προχωρούμε με μια μελέτη της συμπεριφοράς του μοντέλου GraphSAGE για δυναμικούς γράφους και το πώς η ακρίβειά του στην εργασία της πρόβλεψης ετικετών κόμβων γράφου επηρεάζεται από τον τρόπο δυναμικής ανάπτυξής του (θεωρία ομοφιλίας). Στη συνέχεια, εξετάζουμε μια πλήρη σειρά πειραμάτων πάνω σε συνθετικά δεδομένα, ώστε να δοκιμάσουμε τις υποθέσεις μας και λαμβάνουμε αποτελέσματά που επιβεβαιώνουν την αποτελεσματικότητα του μοντέλου απόφασης σε δυναμικούς γράφους. Τέλος, δοκιμάζουμε το μοντέλο μας σε ένα σύνολο δεδομένων που προσεγγίζει αριθμό κόμβων της τάξης 106 και παίρνουμε ικανοποιητικά αποτελέσματα που ξεπερνούν συμβατικά baselines και προσεγγίζουν τη βέλτιστη λύση. | el |
heal.abstract | This thesis examines graph representation models in a dynamic environment and proposes a comprehensive proposal for their efficient retraining based on both cost and accuracy. First, the theoretical framework of data drift and how it occurs in machine learning problems for Euclidean data, affecting the accuracy of online models is presented, followed by the correlation of this phenomenon with the retraining cost to derive an overall strategy cost. The logic of model staleness introduced by previous research is followed, so that the degradation of the model’s predictive ability is calculated based on a certain workload, called queries. We finally make the connection to the graph data problem by proposing a vector field representation of the graph data and the use of the graph neural model, GraphSAGE. Finally, we show how we use the algorithm CARA, proposed for Euclidean data, for our problem and the final implementation of the decision function for informed model retraining. First, we proceed with a study of the behavior of the GraphSAGE model for dynamic graphs and how its accuracy in the task of predicting graph node labels is affected by the way it is expanded (homophily theory). We then consider a full set of experiments on synthetic data to test our hypotheses and obtain results that confirm the effectiveness of the decision algorithms on dynamic graphs. Finally, we test our model on a big real-world dataset of the order of 106 nodes and obtain satisfactory results that outperform conventional baselines and approximate the optimal solution. | en |
heal.advisorName | Παπαβασιλείου, Συμεών | el |
heal.committeeMemberName | Μαθιουδάκης, Μιχαήλ | el |
heal.committeeMemberName | Στάη, Ελένη | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 85 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: