dc.contributor.author | Καζελίδης, Ιωάννης Μιχαήλ | el |
dc.contributor.author | Kazelidis, Ioannis Michail | en |
dc.date.accessioned | 2024-02-19T08:52:35Z | |
dc.date.available | 2024-02-19T08:52:35Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/58921 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.26617 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Μέσα Κοινωνικής Δικτύωσης | el |
dc.subject | Ανίχνευση Bots | el |
dc.subject | Βαθιά Μάθηση | el |
dc.subject | Τεχνητή Νοημοσύνη | el |
dc.subject | Επεξεργασία Φυσικής Γλώσσας | el |
dc.subject | Social Media | en |
dc.subject | Bots Detection | en |
dc.subject | Deep Learning | en |
dc.subject | Artificial Intelligence | en |
dc.subject | Natural Language Processing | en |
dc.title | Ανίχνευση Bots στο Twitter με χρήση συνελικτικών νευρωνικών δικτύων και μοντέλων Transformer | el |
heal.type | bachelorThesis | |
heal.classification | Τεχνητή Νοημοσύνη | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2023-10-19 | |
heal.abstract | Στην σύγχρονη εποχή, τα μέσα κοινωνικής δικτύωσης έχουν ενσωματωθεί πλήρως στις ζωές των ανθρώπων, αποτελώντας μάλιστα πλέον αναπόσπαστο τμήμα αυτών. Η απλότητα στην χρήση, η διαδραστικότητα, καθώς και η δυνατότητα της άμεσης διάδοσης πληροφορίας που παρέχουν, καθιστούν ολοένα και συχνότερη την αξιοποίησή τους ως μέσο διάδοσης των ειδήσεων, στις μέρες μας. Ωστόσο, η διαρκώς αυξανόμενη χρήση τους στον τομέα της ενημέρωσης έχει προσελκύσει κακόβουλους χρήστες, οι οποίοι αποσκοπούν στην εκμετάλλευση των δυνατοτήτων που προσφέρουν τα μέσα κοινωνικής δικτύωσης, προς όφελός τους. Την τελευταία δεκαετία, έχει σημειωθεί μια ραγδαία αύξηση στην δραστηριότητα των κακόβουλων αυτοματοποιημένων λογαριασμών, γνωστών ως bots, στις πλατφόρμες κοινωνικής δικτύωσης, και ιδιαίτερα στην πλατφόρμα του Twitter, εγείροντας σοβαρές οικονομικές, πολιτικές, καθώς και κοινωνικές ανησυχίες. Απώτερος στόχος των bots είναι η παραπληροφόρηση των χρηστών, μέσω της διάδοσης ψευδών ειδήσεων και την χειραγώγηση του δημοσίου λόγου, ενώ χρησιμοποιούνται και για την διασπορά συνομωσιών και την προώθηση συγκεκριμένων προϊόντων. Δεδομένων των παραπάνω, κρίνεται επιτακτική η ανάγκη κατανόησης της φύσης των bots και των χαρακτηριστικών τους, για την έγκαιρη ανίχνευση και αντιμετώπισή τους. Αντικείμενο της παρούσας διπλωματικής εργασίας αποτελεί η αντιμετώπιση του προβλήματος ανίχνευσης αυτοματοποιημένων λογαριασμών στο μέσο κοινωνικής δικτύωσης του Twitter, με χρήση Βαθιάς Μηχανικής Μάθησης και Προεκπαιδευμένων Μοντέλων Transformer. Πιο συγκεκριμένα, προτείνονται δύο μέθοδοι κατηγοριοποίησης των χρηστών του Twitter σε πραγματικούς και αυτοματοποιημένους. Κατά την πρώτη μέθοδο, αναπτύσσεται ένα μονοτροπικό μοντέλο, το οποίο, αφού πρώτα κατασκευάσει αλληλουχίες Digital DNA για κάθε χρήστη, που προκύπτουν από την δραστηριότητα του λογαριασμού του, τις μετατρέπει σε τρισδιάστατες εικόνες, τις οποίες ύστερα τροφοδοτεί σε προεκπαιδευμένα Συνελικτικά Νευρωνικά Δίκτυα, προς την εύρεση αυτού που τις κατηγοριοποιεί βέλτιστα. Κατά την δεύτερη μέθοδο, αναπτύσσεται ένα πολυτροπικό μοντέλο, το οποίο αξιοποιεί τόσο τις τρισδιάστατες εικόνες που αντιπροσωπεύουν την δραστηριότητα του λογαριασμού του χρήστη, όσο και την περιγραφή του λογαριασμού του. Για τις αναπαραστάσεις εισόδου των εικόνων και του κειμένου χρησιμοποιήθηκαν, αντίστοιχα, το βέλτιστο μοντέλο της προηγούμενης μεθόδου, VGG16, και το προεκπαιδευμένο μοντέλο Transformer TwHIN-BERT, ενώ για την συγχώνευσή τους, επιστρατεύθηκε ένα σύνολο από μεθόδους συγχώνευσης (Concatenation, Gated Multimodal Unit και Crossmodal Attention). Εκτενή και πολυπληθή πειράματα πάνω στο σύνολο δεδομένων Cresci-2017 επιβεβαίωσαν την αποτελεσματικότητα όλων των προτεινόμενων υλοποιήσεων, με αποκορύφωμα το μοντέλο TwHIN-BERT + VGG16 (Cross-Modal Attention), που αξιοποιεί εικόνες που βασίζονται στο περιεχόμενο των tweets του χρήστη, το οποίο επέτυχε επίδοση 99.98% στην μετρική Accuracy, υπερτερώντας ακόμα και μερικών εκ των state-of-the-art προσεγγίσεων που έχουν δημοσιευθεί έως τώρα από την επιστημονική κοινότητα προς την αντιμετώπιση του ίδιου προβλήματος. | el |
heal.abstract | In the modern era, social media have been fully integrated into people's lives, even becoming an indispensable part of them. The ease of use, the interactivity, and the ability to quickly disseminate information, that they provide, make their use as a means of news dissemination increasingly common in our days. However, the constantly increasing use of social media for spreading news has attracted malicious users, who aim to exploit the possibilities offered by social media platforms for their benefit. Over the past decade, there has been a rapid increase in the activity of malicious automated accounts, known as bots, on social media platforms, especially on Twitter, raising serious economic, political, and social concerns. The ultimate goal of these bots is to misinform users by spreading fake news and manipulating public discourse, while also being used to disperse conspiracies and promote specific products. Given the above, there is an urgent need to understand the nature of bots and their characteristics for their timely detection and mitigation. The main object of this diploma thesis is the detection of automated accounts on the Twitter social media platform, using Deep Learning and Pretrained Transformer Models. More specifically, two methods for classifying Twitter users into legitimate and automated accounts are proposed. In the first method, a unimodal model is developed, which first constructs Digital DNA sequences for each user, based on their account activity, and then transforms them into three-dimensional images. These images are then fed into pretrained Convolutional Neural Networks (CNNs), to find the one that best classifies the users. In the second method, a multimodal model is developed, which utilizes both the three-dimensional images, representing the account activity of the user, and the account description. For the input representations of the images and the text, the optimal model from the previous method, VGG16, and the pretrained Transformer model TwHIN-BERT, respectively, were used. To merge them, a set of fusion methods (Concatenation, Gated Multimodal Unit, and Crossmodal Attention) was employed. Numerous and extensive experiments on the Cresci-2017 dataset confirmed the effectiveness of all proposed approaches, with the TwHIN-BERT + VGG16 (Cross-Modal Attention) model, with images based on the content of tweets, achieving an Accuracy of 99.98%, surpassing even some of the state-of-the-art approaches published by the scientific community to address the same problem. | en |
heal.advisorName | Ασκούνης, Δημήτριος | el |
heal.committeeMemberName | Ψαρράς, Ιωάννης | el |
heal.committeeMemberName | Δούκας, Χρυσόστομος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρικών Βιομηχανικών Διατάξεων και Συστημάτων Αποφάσεων. Εργαστήριο Συστημάτων Αποφάσεων και Διοίκησης | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 131 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: