HEAL DSpace

Ανίχνευση Bots στο Twitter με χρήση συνελικτικών νευρωνικών δικτύων και μοντέλων Transformer

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Καζελίδης, Ιωάννης Μιχαήλ el
dc.contributor.author Kazelidis, Ioannis Michail en
dc.date.accessioned 2024-02-19T08:52:35Z
dc.date.available 2024-02-19T08:52:35Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58921
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26617
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μέσα Κοινωνικής Δικτύωσης el
dc.subject Ανίχνευση Bots el
dc.subject Βαθιά Μάθηση el
dc.subject Τεχνητή Νοημοσύνη el
dc.subject Επεξεργασία Φυσικής Γλώσσας el
dc.subject Social Media en
dc.subject Bots Detection en
dc.subject Deep Learning en
dc.subject Artificial Intelligence en
dc.subject Natural Language Processing en
dc.title Ανίχνευση Bots στο Twitter με χρήση συνελικτικών νευρωνικών δικτύων και μοντέλων Transformer el
heal.type bachelorThesis
heal.classification Τεχνητή Νοημοσύνη el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-10-19
heal.abstract Στην σύγχρονη εποχή, τα μέσα κοινωνικής δικτύωσης έχουν ενσωματωθεί πλήρως στις ζωές των ανθρώπων, αποτελώντας μάλιστα πλέον αναπόσπαστο τμήμα αυτών. Η απλότητα στην χρήση, η διαδραστικότητα, καθώς και η δυνατότητα της άμεσης διάδοσης πληροφορίας που παρέχουν, καθιστούν ολοένα και συχνότερη την αξιοποίησή τους ως μέσο διάδοσης των ειδήσεων, στις μέρες μας. Ωστόσο, η διαρκώς αυξανόμενη χρήση τους στον τομέα της ενημέρωσης έχει προσελκύσει κακόβουλους χρήστες, οι οποίοι αποσκοπούν στην εκμετάλλευση των δυνατοτήτων που προσφέρουν τα μέσα κοινωνικής δικτύωσης, προς όφελός τους. Την τελευταία δεκαετία, έχει σημειωθεί μια ραγδαία αύξηση στην δραστηριότητα των κακόβουλων αυτοματοποιημένων λογαριασμών, γνωστών ως bots, στις πλατφόρμες κοινωνικής δικτύωσης, και ιδιαίτερα στην πλατφόρμα του Twitter, εγείροντας σοβαρές οικονομικές, πολιτικές, καθώς και κοινωνικές ανησυχίες. Απώτερος στόχος των bots είναι η παραπληροφόρηση των χρηστών, μέσω της διάδοσης ψευδών ειδήσεων και την χειραγώγηση του δημοσίου λόγου, ενώ χρησιμοποιούνται και για την διασπορά συνομωσιών και την προώθηση συγκεκριμένων προϊόντων. Δεδομένων των παραπάνω, κρίνεται επιτακτική η ανάγκη κατανόησης της φύσης των bots και των χαρακτηριστικών τους, για την έγκαιρη ανίχνευση και αντιμετώπισή τους. Αντικείμενο της παρούσας διπλωματικής εργασίας αποτελεί η αντιμετώπιση του προβλήματος ανίχνευσης αυτοματοποιημένων λογαριασμών στο μέσο κοινωνικής δικτύωσης του Twitter, με χρήση Βαθιάς Μηχανικής Μάθησης και Προεκπαιδευμένων Μοντέλων Transformer. Πιο συγκεκριμένα, προτείνονται δύο μέθοδοι κατηγοριοποίησης των χρηστών του Twitter σε πραγματικούς και αυτοματοποιημένους. Κατά την πρώτη μέθοδο, αναπτύσσεται ένα μονοτροπικό μοντέλο, το οποίο, αφού πρώτα κατασκευάσει αλληλουχίες Digital DNA για κάθε χρήστη, που προκύπτουν από την δραστηριότητα του λογαριασμού του, τις μετατρέπει σε τρισδιάστατες εικόνες, τις οποίες ύστερα τροφοδοτεί σε προεκπαιδευμένα Συνελικτικά Νευρωνικά Δίκτυα, προς την εύρεση αυτού που τις κατηγοριοποιεί βέλτιστα. Κατά την δεύτερη μέθοδο, αναπτύσσεται ένα πολυτροπικό μοντέλο, το οποίο αξιοποιεί τόσο τις τρισδιάστατες εικόνες που αντιπροσωπεύουν την δραστηριότητα του λογαριασμού του χρήστη, όσο και την περιγραφή του λογαριασμού του. Για τις αναπαραστάσεις εισόδου των εικόνων και του κειμένου χρησιμοποιήθηκαν, αντίστοιχα, το βέλτιστο μοντέλο της προηγούμενης μεθόδου, VGG16, και το προεκπαιδευμένο μοντέλο Transformer TwHIN-BERT, ενώ για την συγχώνευσή τους, επιστρατεύθηκε ένα σύνολο από μεθόδους συγχώνευσης (Concatenation, Gated Multimodal Unit και Crossmodal Attention). Εκτενή και πολυπληθή πειράματα πάνω στο σύνολο δεδομένων Cresci-2017 επιβεβαίωσαν την αποτελεσματικότητα όλων των προτεινόμενων υλοποιήσεων, με αποκορύφωμα το μοντέλο TwHIN-BERT + VGG16 (Cross-Modal Attention), που αξιοποιεί εικόνες που βασίζονται στο περιεχόμενο των tweets του χρήστη, το οποίο επέτυχε επίδοση 99.98% στην μετρική Accuracy, υπερτερώντας ακόμα και μερικών εκ των state-of-the-art προσεγγίσεων που έχουν δημοσιευθεί έως τώρα από την επιστημονική κοινότητα προς την αντιμετώπιση του ίδιου προβλήματος. el
heal.abstract In the modern era, social media have been fully integrated into people's lives, even becoming an indispensable part of them. The ease of use, the interactivity, and the ability to quickly disseminate information, that they provide, make their use as a means of news dissemination increasingly common in our days. However, the constantly increasing use of social media for spreading news has attracted malicious users, who aim to exploit the possibilities offered by social media platforms for their benefit. Over the past decade, there has been a rapid increase in the activity of malicious automated accounts, known as bots, on social media platforms, especially on Twitter, raising serious economic, political, and social concerns. The ultimate goal of these bots is to misinform users by spreading fake news and manipulating public discourse, while also being used to disperse conspiracies and promote specific products. Given the above, there is an urgent need to understand the nature of bots and their characteristics for their timely detection and mitigation. The main object of this diploma thesis is the detection of automated accounts on the Twitter social media platform, using Deep Learning and Pretrained Transformer Models. More specifically, two methods for classifying Twitter users into legitimate and automated accounts are proposed. In the first method, a unimodal model is developed, which first constructs Digital DNA sequences for each user, based on their account activity, and then transforms them into three-dimensional images. These images are then fed into pretrained Convolutional Neural Networks (CNNs), to find the one that best classifies the users. In the second method, a multimodal model is developed, which utilizes both the three-dimensional images, representing the account activity of the user, and the account description. For the input representations of the images and the text, the optimal model from the previous method, VGG16, and the pretrained Transformer model TwHIN-BERT, respectively, were used. To merge them, a set of fusion methods (Concatenation, Gated Multimodal Unit, and Crossmodal Attention) was employed. Numerous and extensive experiments on the Cresci-2017 dataset confirmed the effectiveness of all proposed approaches, with the TwHIN-BERT + VGG16 (Cross-Modal Attention) model, with images based on the content of tweets, achieving an Accuracy of 99.98%, surpassing even some of the state-of-the-art approaches published by the scientific community to address the same problem. en
heal.advisorName Ασκούνης, Δημήτριος el
heal.committeeMemberName Ψαρράς, Ιωάννης el
heal.committeeMemberName Δούκας, Χρυσόστομος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρικών Βιομηχανικών Διατάξεων και Συστημάτων Αποφάσεων. Εργαστήριο Συστημάτων Αποφάσεων και Διοίκησης el
heal.academicPublisherID ntua
heal.numberOfPages 131 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα