heal.abstract |
Η διάδοση ψευδών ειδήσεων αποτελεί ένα πρόβλημα, το οποίο ταλανίζει τον κόσμο εδώ και
πολλά χρόνια. Με την αύξηση των μέσων διάδοσης και την πλέον εκτεταμένη χρήση των κοινωνικών δικτύων όπως του Facebook και του Twitter, ο ρυθμός διάδοσης των ψευδών ειδήσεων αυξήθηκε εκθετικά. Στην παρακάτω διπλωματική εργασία, αναλύεται η προϋπάρχουσα
βιβλιογραφία πάνω στον εντοπισμό ψευδών ειδήσεων, η οποία περιλαμβάνει την μελέτη με
βάση αποκλειστικά το περιεχόμενο των ειδήσεων, το περιεχόμενο των ειδήσεων με βάση τα
συμφραζόμενα, τη διάδοση ειδήσεων και τη γνώση που περιέχουν οι ειδήσεις και γίνεται προσπάθεια μέσω ενός συνόλου δεδομένων, το οποίο είναι εξ ολοκλήρου στα ελληνικά, να εντοπιστεί η επιρροή της κάθε μεθόδου και να εξακριβωθεί ποια είναι η πιο αποδοτική. Αρχικά
αναλύεται το θεωρητικό υπόβαθρο και παρατίθενται έννοιες, των οποίων η γνώση θεωρείται
απαραίτητη όπως Μηχανική Μάθηση, ο ορισμός των Γράφων, των Νευρωνικών Δικτύων Γράφων και των Γράφων Γνώσης. Έπειτα αναλύεται το σύνολο δεδομένων το οποίο είναι καινοτόμο, ως προς το γεγονός ότι δεν υπάρχει άλλο ολοκληρωμένο σύνολο δεδομένων στην ελληνική γλώσσα που περιέχει επιβεβαιωμένες ψευδείς και αληθείς ειδήσεις και παρουσιάζεται η
δομή του και το περιεχόμενό του. Ο εντοπισμός των ψευδών ειδήσεων, βασίζεται στο κείμενο
που περιέχουν, με εξαίρεση την περίπτωση της διάδοσης, όπου χρησιμοποιείται και η πηγή
του κάθε κειμένου. Στη συνέχεια, παρατίθενται αποτελέσματα από κάποιες baseline τεχνικές,
οι οποίες μελετήθηκαν για να συγκριθούν με το βέλτιστο μοντέλο, οι οποίες περιλαμβάνουν
τεχνικές διανυσμάτων λέξεων όπως FastText, Word2Vec, TF-IDF, GloVe, SpaCy, BERT. Εν
συνεχεία, υλοποιήθηκαν πειράματα με BiGRU, τεχνικές δικτύων γράφων μέσω του Δικτύου
Γράφων Προσοχής (Graph Attention Network - GAT) – το οποίο συγκρίθηκε με το Συνελικτικό Δίκτυο Γράφων (Graph Convolutional Network – GCN) - και συνδυάζονται οι πιο αποδοτικές τεχνικές, οι οποίες χρησιμοποιούνται, για την εξακρίβωση της απόδοσης με βάση τη
γνώση. Εν συνεχεία παρουσιάζονται οι επιδόσεις του κάθε μοντέλου, γίνεται σύγκριση με σύνολα δεδομένων που χρησιμοποιήθηκαν εκτενώς στη βιβλιογραφία και συμπεραίνουμε ότι με
βάση την ακρίβεια (accuracy) και το f1-score, το καλύτερο μοντέλο ανίχνευσης ειδήσεων χρησιμοποιεί τη BiGRU με ένα απλό νευρωνικό δίκτυο, το οποίο υπάγεται στη μέθοδο εντοπισμού
ψευδών ειδήσεων σύμφωνα με το περιεχόμενο βασισμένο στα συμφραζόμενα και αποτελείται
από επίπεδο διανυσμάτων, επίπεδο dropout για αποτροπή της υπερπροσαρμογής, επίπεδο
BiGRU και επίπεδο dense για την έπειτα ταξινόμηση μέσω σιγμοειδούς συνάρτησης, με επίδοση που ανέρχεται στο 95%. |
el |