Σε αυτή την εργασία θα προσπαθήσουμε να αναλύσουμε τα χαρακτηριστικά των spam bots και στη συνέχεια χρησιμοποιώντας κάποιον αλγόριθμο μηχανικής μάθησης να κατασκευάσουμε ένα μοντέλο που θα κατηγοριοποιεί λογαριασμούς του Twitter σε spammer και μη spammer. Η κατηγοριοποίηση αυτή βασίζεται σε χαρακτηριστικά που εξάγονται από το προφίλ των χρηστών και το περιεχόμενο των tweets που δημοσιεύουν. Στα πλαίσια της εκπαίδευσης του μοντέλου κατηγοριοποίησης, δοκιμάζονται αρκετοί αλγόριθμοι και επιλέγεται ο καταλληλότερος. Επιπλέον διαμορφώνεται μία blacklist με spammer λογαριασμούς. Επιπλέον σχεδιάστηκε και υλοποιήθηκε web εφαρμογή που: κατηγοριοποιεί λογαριασμούς Twitter, ανιχνεύει spammers σε friends και followers του χρήστη και τέλος ο χρήστης μπορεί να χαρακτηρίζει λογαριασμούς, ώστε τα δεδομένα αυτά να χρησιμοποιούνται για την περεταίρω εκπαίδευση του μοντέλου και για τον καθορισμό ενός συνόλου λογαριασμών που είναι spammer για να εμπλουτιστεί η blacklist.
The scope of this thesis was the development of a model able to detect spammer Twitter accounts. In order to accomplish this we analyze the characteristics of spam bots that will help us build a classification machine learning model. These characteristics are extracted from account’s profile and user’s tweet content. In order to choose the optimal machine learning algorithm we test a variety of them. Furthermore we form a blacklist containing spammer accounts. Finally, we developed a web application that gives the user the opportunity to categorize Twitter accounts, detect spammers in his friends or followers and mark accounts as spammers or not spammers. This way both the classifier and the blacklist are updated with fresh data.