HEAL DSpace

Ανίχνευση bot στο Twitter με τεχνικές Μηχανικής Μάθησης.

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Τσιγγέλης, Κωνσταντίνος el
dc.contributor.author Tsingelis, Konstantinos en
dc.date.accessioned 2024-04-23T10:25:30Z
dc.date.available 2024-04-23T10:25:30Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/59257
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26953
dc.rights Default License
dc.subject Μηχανική μάθηση el
dc.subject Νευρωνικά Δίκτυα el
dc.subject Γράφος el
dc.subject Μποτ el
dc.subject Τουίτερ el
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Machine learning en
dc.subject Neural networks en
dc.subject Graph en
dc.subject Bot en
dc.subject Twitter en
dc.subject Natural language processing en
dc.title Ανίχνευση bot στο Twitter με τεχνικές Μηχανικής Μάθησης. el
dc.title Twitter bot detection using GNN's. en
heal.type bachelorThesis
heal.classification Μηχανική μάθηση el
heal.classification Machine learning en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-10-19
heal.abstract Η διπλωματική αυτή εργασία ασχολείται με την ανάπτυξη ενός μοντέλου ανίχνευσης bot λογαριασμών στο Twitter με τεχνικές μηχανικής μάθησης. Το Twitter είναι ένα μέσο κοινωνικής δικτύωσης το οποίο επιτρέπει την αλληλεπίδραση των χρηστών μέσω σύντομων μηνυμάτων τα οποία ονομάζονται τουιτς (tweets). Έχει εδραιωθεί στην σημερινή κοινωνία ως ένα από τα κυρίαρχα μέσα κοινωνικής δικτύωσης ενώ συχνά παρομοιάζεται ως μία ‘παγκόσμια εφημερίδα’ η οποία επηρεάζει το κοινωνικοπολιτικό γίγνεσθαι και διαμορφώνει την κοινή γνώμη. Η άνθιση αυτή βέβαια του Twitter αντιμετωπίσθηκε σαν ευκαιρία από πολλούς χρήστες οι οποίοι προσπάθησαν να εκμεταλλευτούν την δύναμή του για να υλοποιήσουν δικούς τους, συχνά κακοπροαίρετους σκοπούς. Ως επακόλουθο, εμφανίστηκαν τα bots δηλαδή χρήστες οι οποίοι προκύπτουν από αυτοματοποιημένα λογισμικά και αποσκοπούν στην υπονόμευση της αξιοπιστίας και ανεξαρτησίας του Twitter. Βασικά χαρακτηριστικά τους, το οποία καθιστούν την ανίχνευσή τους πολύ απαιτητική, είναι η ποικιλομορφία και η εξελισσιμότητά τους. Διαφορετικά είδη Bot αξιοποιούν διαφορετικά χαρακτηριστικά και μέσα του Twitter προκειμένου να προωθήσουν την ατζέντα τους. Κάποιοι τύποι επιθέσεων είναι οι ακόλουθοι: διανέμουν κακόβουλους συνδέσμους, προσποιούνται τους κοινωνικούς φίλους σε χρήστες για να αποσπάσουν επικίνδυνες και ζημιογόνες πληροφορίες, αναδημοσιεύουν ειδήσεις με μεροληπτικό περιεχόμενο προκειμένου να επηρεάσουν την κοινή γνώμη κτλ. Παράλληλα τα bot εξελίσσονται συνέχεια ώστε να ξεπερνούν τα είδη υπάρχοντα μέτρα ανίχνευσης αλλά και για να αναβαθμίσουν την αληθοφάνεια τους και ως επακόλουθο να αυξήσουν την επιρροή τους. Με τον καιρό λοιπόν γίνονται όλο και πιο ευφυή, προσομοιώνοντας την συμπεριφορά ρεαλιστικών χρηστών. Η εργασία ανίχνευσης bot λογαριασμών είναι πολύ ουσιώδης και απαιτητική. Οι ήδη υπάρχουσες μέθοδοι γενικά μπορούν να διαιρεθούν σε δύο κατηγορίες: μέθοδοι που βασίζονται στην μηχανικη εξαγωγής χαρακτηριστικών και μέθοδοι που χρησιμοποιούν δίκτυα βαθιάς μάθησης. Οι πρώτες εξάγουν τα χαρακτηριστικα των χρηστών από τα tweets και από την πληροφορία του λογαριασμού τους και τα τροφοδοτούν σε κλασικούς ταξινομητές μηχανικής μάθησης ενώ οι μετέπειτα στηρίζονται σε αρχιτεκτονικές βαθιών νευρωνικών δικτύων. Παρά το αρχικό θετικό αποτέλεσμα, η αναζήτηση ενός μοντέλου που θα αντιμετωπίζει αποδοτικά τις απαιτήσεις του ζητήματος και θα γενικεύει στην πραγματική σφαίρα του Twitter παραμένει ανοιχτή. Στο μοντέλο που προτείνουμε χρησιμοποιούμε παράλληλα πολυτροπικές πληροφορίες για κάθε χρήστη χωρίς μηχανική χαρακτηριστικών. Συνδυάζουμε τεχνικές επιβλεπόμενης και μη επιβλεπόμενης μηχανικής μάθησης ούτως ώστε να κατηγοριοποιήσουμε τους χρήστες σε Bot ή γνήσιους χρήστες. Ιδιαίτερα εφαρμόζουμε μοντέλα Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing), ώστε να επιτευχθεί η εξαγωγή πληροφορίας από αδόμητες πηγές δεδομένων (tweets) και νευρωνικά δίκτυα για να βρούμε την αναπαράσταση των χαρακτηριστικών κάθε χρήστη, επιλέγοντας αυτά που βελτιστοποιουν το μοντέλο μας. Ακολούθως, κατασκευάζουμε έναν ετερογενή γράφο που καλύπτει τις σχέσεις ακολουθησης που αναπτύσσονται στο Twitter (follower και following) και εφαρμόζουμε δομές νευρωνικών δικτύων σε γράφους (Graph Neural Networks) ούτως ώστε να συμπεριλάβουμε στην πρόβλεψή μας και την κοινωνική δραστηριότητα των χρηστών. Τέλος, βασισμένοι στο ολοκληρωμένο σύνολο δεδομένων Twibot-20 που αποτελεί σημείο αναφοράς εκτελούμε πειράματα που αναδεικνύουν την αποδοτικότητα του μοντέλου μας και την ανταγωνιστική του επίδοση σε σχέση με τις υπάρχουσες υλοποιήσεις. el
heal.abstract This thesis aims to the development of a bot account detection model on Twitter using machine learning techniques. Twitter is a social media platform that allows users to interact through short messages called tweets. It has become firmly established in today's society as one of the dominant social media platforms and is often referred to as a "global newspaper" that influences social and political events and shapes public opinion. The rise of Twitter, however, was seen as an opportunity by many users who tried to exploit its power for their own, often malicious, purposes. As a result, bots emerged, which are users generated by automated software aiming to undermine Twitter's credibility and independence. Key characteristics that make bot detection challenging are their diversity and adaptability. Different types of bots leverage different features and means within Twitter to promote their agendas. Some types of attacks include distributing malicious links, impersonating social friends to extract dangerous and harmful information, reposting biased news to influence public opinion, and more. Bots constantly evolve to surpass existing detection measures and enhance their authenticity to increase their influence. Over time, they become increasingly intelligent, simulating the behavior of real users. The task of bot account detection is crucial and demanding. Existing methods can generally be categorized into two groups: methods based on feature extraction and methods using deep learning networks. The former extracts user features from tweets and account information and feeds them into traditional machine learning classifiers, while the latter relies on deep neural network architectures. Despite initial positive results, finding a model that efficiently addresses the challenges of the issue and generalizes to the real Twitter sphere remains an open question. In the proposed model we utilize multi-modal information for each user without relying solely on feature engineering.We combine supervised and unsupervised machine learning techniques to categorize users into bots or genuine users. Specifically, we apply Natural Language Processing (NLP) models to extract information from unstructured data (tweets) and neural networks to find representations of user features, selecting those that optimize our model. Subsequently, we construct a heterogeneous graph that covers the following relationships that develop on Twitter: follower and following. We apply Graph Neural Networks (GNNs) to include social activity in our predictions. Finally, based on the integrated Twibot-20 dataset that serves as a reference point, we conduct experiments that highlight the efficiency of our model and its competitive performance compared to existing implementations. en
heal.advisorName Ασκούνης, Δημήτριος el
heal.advisorName Askounis, Dimitrios el
heal.committeeMemberName Ασκούνης, Δημήτριος el
heal.committeeMemberName Ιωάννης, Ψαρράς el
heal.committeeMemberName Ευάγγελος, Μαρινάκης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρικών Βιομηχανικών Διατάξεων και Συστημάτων Αποφάσεων el
heal.academicPublisherID ntua
heal.numberOfPages 101 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής