Ανίχνευση φύλου στο Twitter μέσω υβριδικού αλγορίθμου μηχανικής μάθησης

Γιαννακόπουλος-Καρακώντης, Ορέστης; Giannakopoulos-Karakontis, Orestis

dc.contributor.author	Γιαννακόπουλος-Καρακώντης, Ορέστης	el
dc.contributor.author	Giannakopoulos-Karakontis, Orestis	en
dc.date.accessioned	2018-03-28T09:25:11Z
dc.date.available	2018-03-28T09:25:11Z
dc.date.issued	2018-03-28
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/46791
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.14899
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Κοινωνικά δίκτυα	el
dc.subject	Ανάλυση δεδομένων	el
dc.subject	Ανίχνευση φύλου	el
dc.subject	Υβριδικός αλγόριθμος	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Social networks	en
dc.subject	Twitter	en
dc.subject	Gender detection	en
dc.subject	Machine learning	en
dc.subject	Data analysis	en
dc.subject	Hybrid algorithm	en
dc.title	Ανίχνευση φύλου στο Twitter μέσω υβριδικού αλγορίθμου μηχανικής μάθησης	el
dc.title	A hybrid machine learning approach for gender inference on twitter	en
heal.type	bachelorThesis
heal.classification	Computer science	en
heal.classification	Machine learning	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2017-11-14
heal.abstract	Τα μέσα κοινωνικής δικτύωσης παρουσιάζουν ιδιαίτερη αύξηση στη δημοτικότητα τους τα τελευταία χρόνια, με το Twitter να αποτελεί ένα από τα πιο δημοφιλή. Παρά την ελευθερία που παρέχεται από το Twitter για την πρόσβαση σε δεδομένα που παράγονται από τους χρήστες του, δεν υπάρχουν υποχρεωτικά πεδία στα προφίλ των χρηστών που να δηλώνουν τα δημογραφικά τους στοιχεία. Το γεγονός αυτό σε συνδυασμό με την χρησιμότητα των δημογραφικών στοιχείων για ερευνητικούς αλλά και εμπορικούς σκοπούς, έχει οδηγήσει σε πολυάριθμες έρευνες που προτείνουν έμμεσους τρόπους ανίχνευσης διαφόρων δημογραφικών στοιχείων χρηστών που διαθέτουν λογαρισμό στο Twitter. Ειδικότερα για την ανίχνευση του φύλου, έχουν προταθεί ποικίλες μεθοδολογίες που βασίζονται στη χρήση αλγορίθμων μηχανικής μάθησης. Οι περισσότερες από αυτές τις μεθοδολογίες εξαρτώνται από την γλώσσα των χρηστών και χρησιμοποιούν πολυάριθμα χαρακτηριστικά πραγματοποιώντας την εκπαίδευση των αλγορίθμων μηχανικής μάθησης σε χώρους υψηλών διαστάσεων. Για το λόγο αυτό, τέτοιες προσεγγίσεις περιορίζονται κυρίως σε συγκεκριμένες εθνικότητες χρηστών, είναι ιδιαίτερα χρονοβόρες και παρουσιάζουν υψηλή κατανάλωση υπολογιστικών πόρων με αποτέλεσμα να μην μπορούν να επεκταθούν αποδοτικά σε μεγάλους πληθυσμούς χρηστών του Twitter. Στην παρούσα εργασία προτείνεται ένας αποδοτικός τρόπος για την ανίχνευση του φύλου χρηστών του Twitter, χρησιμοποιώντας μόνο την φωτογραφία προφίλ, το όνομα και το χρώμα θέματος που είναι διαθέσιμα από τα προφίλ των χρηστών. Ο συνδυασμός αυτών των στοιχείων δεν έχει χρησιμοποιηθεί ξανά σε προηγούμενες εργασίες εν γνώση μας. Κατά τη διάρκεια της μελέτης, πραγματοποιήθηκαν πειράματα με αλγορίθμους Naive Bayes, Μηχανές Διανυσμάτων Υποστήριξης και Πιθανολογικά Νευρωνικά Δίκτυα ως ταξινομητές φύλου επιβλεπόμενης μάθησης. Η υλοποίηση τους έγινε στη γλώσσα Python με χρήση των βιβλιοθηκών scikit-learn και neupy. Επίσης χρησιμοποιήθηκαν οι υπηρεσίες δυο αξιόπιστων εξωτερικών πηγών: του Face++ για την ανάλυση των εικόνων και του Genderize για την ταξινόμηση των ονομάτων κατά φύλο. Στο πρώτο μέρος των πειραμάτων, παρουσιάζονται τρεις διακριτές προσεγγίσεις, η κάθε μια βασισμένη σε ένα από τα τρία προαναφερθέντα πεδία του προφίλ, και αξιολογείται η απόδοση τους. Επίσης εξάγονται συμπεράσματα για τις διαφορετικές συμπεριφορές των δυο φύλων στο Twitter, σύμφωνα με το κάθε πεδίο. Στη συνέχεια, κάθε διακριτή προσέγγιση συνδυάζεται σε έναν υβριδικό αλγόριθμο μηχανικής μάθησης. Χρησιμοποιώντας τρία Πιθανολογικά Νευρωνικά Δίκτυα και μια Μηχανή Διανυσμάτων Υποστήριξης σε διαφορετικά στάδια της διαδικασίας, επιτεύχθει 87.2% accuracy στις προβλέψεις φύλου χρησιμοποιώντας τη μέθοδο 5-fold cross-validation για κάθε μοντέλο επιβλεπόμενης μάθησης. Όλα τα πειράματα πραγματοποιήθηκαν σε δείγμα χρηστών αντιπροσωπευτικό του συνολικού πληθυσμού του Τwitter για να γίνει βέβαιο ότι η προτεινόμενη μέθοδος μπορεί να γενικευτεί αξιόπιστα. Η εργασία αυτή καταδεικνύει ότι χρησιμοποιώντας μόνο έναν πολύ μικρό αριθμό χαρακτηριστικών από τα προφίλ χρηστών στο Twitter, είναι δυνατή η ανίχνευση του φύλου τους πετυχαίνοντας έναν πολύ καλό συνδυασμό κλιμακωσιμότητας (scalability) και ακρίβειας (accuracy).	el
heal.abstract	Online social networks have increased their popularity over the last few years, with Twitter being one of the most prominent. Despite the freedom of access granted by Twitter for its user-generated data, there are no obligatory fields in the user profiles that contain their demographics. This fact, along with the usefulness of demographics for scientific and commercial purposes, has led to a vast amount of studies that focus on indirect ways to detect the demographics of Twitter users. Especially for the detection of gender, many methodologies have been suggested based on machine learning algorithms. The majority of these methodologies are language-dependent and make use of a large amount of features in high-dimensional spaces. Due to this fact, they can target only users with specific nationalities and they are particularly time- and resource-consuming, so they can't efficiently scale to large populations of Twitter. Our approach is simple and efficient, using only the profile picture, the display name and the theme color extracted from profiles of users to detect their gender. This combination of fields has not been utilized in previous works to our knowledge. Throughout this study, we experimented with Naive Bayes, Support Vector Machines and Probabilistic Neural Networks as supervised learning gender classifiers. The classifiers were implemented in Python via the scikit-learn and neupy libraries. We also utilized the services of two reliable external sources: Face++ for image analysis and Genderize for name classification by gender. In the first part of our experiments, we present three distinct approaches based in each of the three aforementioned fields and we evaluate their performance. We also make conclusions about the different behaviors of the two genders in Twitter, in accordance to each field. In the next part, we combine each individual approach in a hybrid machine learning algorithm. Using three Probabilistic Neural Networks and a Support Vector Machine in different stages of the process, we achieve 87.2% accuracy in the prediction of gender using 5-fold cross-validation for every supervised model. All the experiments were made based on a user set that is representative of the entire Twitter population to make sure that our approach can be generalized reliably. We conclude that by using only a very small amount of features for Twitter users, we can classify them by gender with a very good combination of scalability and accuracy.	en
heal.advisorName	Ρουσσάκη, Ιωάννα	el
heal.committeeMemberName	Ρουσσάκη, Ιωάννα	el
heal.committeeMemberName	Συκάς, Ευστάθιος	el
heal.committeeMemberName	Παπαβασιλείου, Συμεών	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	107 σ.
heal.fullTextAvailability	true