Εύρεση βέλτιστου αλγόριθμου μηχανικής μάθησης και μοντελοποίηση θέματος για την κατηγοριοποίηση λογαριασμών Twitter σε Bot ή πραγματικούς χρήστες

Χορτάτου, Μαρία; Πετρή, Δέσποινα-Δάφνη; Chortatou, Maria; Petri, Despoina-Dafni

dc.contributor.author	Χορτάτου, Μαρία	el
dc.contributor.author	Πετρή, Δέσποινα-Δάφνη	el
dc.contributor.author	Chortatou, Maria	en
dc.contributor.author	Petri, Despoina-Dafni	en
dc.date.accessioned	2021-01-15T14:01:30Z
dc.date.available	2021-01-15T14:01:30Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52807
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.20505
dc.rights	Default License
dc.subject	Κοινωνικα δίκτυα	el
dc.subject	Ανάλυση δεδομένων	el
dc.subject	Μηχανική μαθηση	el
dc.subject	Ανάλυση συναισθήματος	el
dc.subject	Κατηγοριοποίηση λογαριασμών Twitter	el
dc.subject	Social networks	en
dc.subject	Data analysis	el
dc.subject	Sentimental analysis	el
dc.subject	Machine learning	el
dc.subject	Twitter-user categorization	el
dc.title	Εύρεση βέλτιστου αλγόριθμου μηχανικής μάθησης και μοντελοποίηση θέματος για την κατηγοριοποίηση λογαριασμών Twitter σε Bot ή πραγματικούς χρήστες	el
heal.type	masterThesis
heal.classification	Κοινωνικά Δίκτυα	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-11-25
heal.abstract	Η παρούσα εργασία στοχεύει στην ανάλυση της αποτελεσματικότητας και της απόδοσης των διαφορετικών αλγορίθμων μηχανικής μάθησης στην ικανότητά τους να ταξινομούν τους λογαριασμούς Twitter είτε ως Bots είτε ως ανθρώπους. Για προφανείς λόγους, αυτό αντιμετωπίζεται ως πρόβλημα κατηγοριοποίησης. Αξιολογείται συνεπώς η απόδοση της γενίκευσης και πρόβλεψης των επιδόσεων όλων των μοντέλων σε σχέση με τα δεδομένα. Βάσει των αποτελεσμάτων, παρουσιάζεται ο πλέον κατάλληλος αλγόριθμος μηχανικής μάθησης για το δεδομένο χώρο υποθέσεων. Είναι πλέον γεγονός ότι τα μέσα κοινωνικής δικτύωσης όχι μόνο έχουν κατακλύσει τις ζωές μας αλλά συμβάλλουν καθοριστικά στη διαμόρφωση της κοινής γνώμης γύρω από μείζονα ζητήματα πολιτικά και μη. Πολλά από όσα αναρτώνται στο Twitter δεν είναι γραμμένα από φυσικά πρόσωπα, αλλά από ψεύτικους και αυτοματοποιημένους λογαριασμούς τα λεγόμενα Bots. Η διαδικτυακή αγορά των Bots, εξαιρετικά δημοφιλής στο εξωτερικό, έχει επεκταθεί ως πρακτική και στην Ελλάδα. Στην παρούσα εργασία προτείνεται ένας αποδοτικός τρόπος για την ανίχνευση ενός Bot λογαριασμού Twitter, χρησιμοποιώντας για την εκπαίδευση του μοντέλου χαρακτηριστικά χρηστών από το API του Twitter. ‘Έμφαση δίνεται στη συναισθηματική ανάλυση πάνω στα κείμενα που δημοσιεύουν οι χρήστες. Ο συνδυασμός αυτών των στοιχείων δεν έχει χρησιμοποιηθεί ξανά σε προηγούμενες εργασίες, καθώς κατά τη διάρκεια της μελέτης πραγματοποιήθηκαν πειράματα με αλγορίθμους NaiveBayes, Μηχανές Διανυσμάτων Υποστήριξης και Νευρωνικά Δίκτυα. Η υλοποίηση τους έγινε στη γλώσσα Python με χρήση των βιβλιοθηκών scikit-learn. Επιπρόσθετα χρησιμοποιήθηκαν οι υπηρεσίες του IBM Watson Tone Analyzer για την ανάλυση του συναισθήματος πάνω στα Tweets. Στο πρώτο μέρος της εργασίας, πραγματοποιείται εξόρυξη στα δεδομένα από το Kaggle και στη συνέχεια εισάγονται παραπάνω πληροφορίες για τους χρήστες χρησιμοποιώντας το ΑPI του Τwitter. Εν συνεχεία, με την βοήθεια της υπηρεσίας Tone Analyzer, γίνεται εξαγωγή πρόσθετων χαρακτηριστικών από τα δεδομένα. Χρησιμοποιώντας διάφορα μοντέλα ταξινόμησης επιτυγχάνεται 92.2% ακρίβεια στις προβλέψεις. Όλα τα πειράματα πραγματοποιήθηκαν σε δείγμα χρηστών αντιπροσωπευτικό του συνολικού πληθυσμού του Τwitter για να γίνει βέβαιο ότι η προτεινόμενη μέθοδος μπορεί να γενικευτεί αξιόπιστα. Η εργασία αυτή καταδεικνύει ότι χρησιμοποιώντας μόνο έναν πολύ μικρό αριθμό χαρακτηριστικών από τα προφίλ χρηστών στο Twitter, είναι δυνατή η ανίχνευση εάν ένας λογαριασμός είναι φυσικό πρόσωπο ή Bot τους πετυχαίνοντας έναν πολύ καλό συνδυασμό δυνατότητας κλιμάκωσης (scalability) και ορθότητας (accuracy).	el
heal.advisorName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Σιόλας, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	79 σ.	el
heal.fullTextAvailability	false