HEAL DSpace

Ανίχνευση φύλου στο Twitter μέσω υβριδικού αλγορίθμου μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Γιαννακόπουλος-Καρακώντης, Ορέστης el
dc.contributor.author Giannakopoulos-Karakontis, Orestis en
dc.date.accessioned 2018-03-28T09:25:11Z
dc.date.available 2018-03-28T09:25:11Z
dc.date.issued 2018-03-28
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/46791
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.14899
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Κοινωνικά δίκτυα el
dc.subject Ανάλυση δεδομένων el
dc.subject Ανίχνευση φύλου el
dc.subject Υβριδικός αλγόριθμος el
dc.subject Μηχανική μάθηση el
dc.subject Social networks en
dc.subject Twitter en
dc.subject Gender detection en
dc.subject Machine learning en
dc.subject Data analysis en
dc.subject Hybrid algorithm en
dc.title Ανίχνευση φύλου στο Twitter μέσω υβριδικού αλγορίθμου μηχανικής μάθησης el
dc.title A hybrid machine learning approach for gender inference on twitter en
heal.type bachelorThesis
heal.classification Computer science en
heal.classification Machine learning en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2017-11-14
heal.abstract Τα μέσα κοινωνικής δικτύωσης παρουσιάζουν ιδιαίτερη αύξηση στη δημοτικότητα τους τα τελευταία χρόνια, με το Twitter να αποτελεί ένα από τα πιο δημοφιλή. Παρά την ελευθερία που παρέχεται από το Twitter για την πρόσβαση σε δεδομένα που παράγονται από τους χρήστες του, δεν υπάρχουν υποχρεωτικά πεδία στα προφίλ των χρηστών που να δηλώνουν τα δημογραφικά τους στοιχεία. Το γεγονός αυτό σε συνδυασμό με την χρησιμότητα των δημογραφικών στοιχείων για ερευνητικούς αλλά και εμπορικούς σκοπούς, έχει οδηγήσει σε πολυάριθμες έρευνες που προτείνουν έμμεσους τρόπους ανίχνευσης διαφόρων δημογραφικών στοιχείων χρηστών που διαθέτουν λογαρισμό στο Twitter. Ειδικότερα για την ανίχνευση του φύλου, έχουν προταθεί ποικίλες μεθοδολογίες που βασίζονται στη χρήση αλγορίθμων μηχανικής μάθησης. Οι περισσότερες από αυτές τις μεθοδολογίες εξαρτώνται από την γλώσσα των χρηστών και χρησιμοποιούν πολυάριθμα χαρακτηριστικά πραγματοποιώντας την εκπαίδευση των αλγορίθμων μηχανικής μάθησης σε χώρους υψηλών διαστάσεων. Για το λόγο αυτό, τέτοιες προσεγγίσεις περιορίζονται κυρίως σε συγκεκριμένες εθνικότητες χρηστών, είναι ιδιαίτερα χρονοβόρες και παρουσιάζουν υψηλή κατανάλωση υπολογιστικών πόρων με αποτέλεσμα να μην μπορούν να επεκταθούν αποδοτικά σε μεγάλους πληθυσμούς χρηστών του Twitter. Στην παρούσα εργασία προτείνεται ένας αποδοτικός τρόπος για την ανίχνευση του φύλου χρηστών του Twitter, χρησιμοποιώντας μόνο την φωτογραφία προφίλ, το όνομα και το χρώμα θέματος που είναι διαθέσιμα από τα προφίλ των χρηστών. Ο συνδυασμός αυτών των στοιχείων δεν έχει χρησιμοποιηθεί ξανά σε προηγούμενες εργασίες εν γνώση μας. Κατά τη διάρκεια της μελέτης, πραγματοποιήθηκαν πειράματα με αλγορίθμους Naive Bayes, Μηχανές Διανυσμάτων Υποστήριξης και Πιθανολογικά Νευρωνικά Δίκτυα ως ταξινομητές φύλου επιβλεπόμενης μάθησης. Η υλοποίηση τους έγινε στη γλώσσα Python με χρήση των βιβλιοθηκών scikit-learn και neupy. Επίσης χρησιμοποιήθηκαν οι υπηρεσίες δυο αξιόπιστων εξωτερικών πηγών: του Face++ για την ανάλυση των εικόνων και του Genderize για την ταξινόμηση των ονομάτων κατά φύλο. Στο πρώτο μέρος των πειραμάτων, παρουσιάζονται τρεις διακριτές προσεγγίσεις, η κάθε μια βασισμένη σε ένα από τα τρία προαναφερθέντα πεδία του προφίλ, και αξιολογείται η απόδοση τους. Επίσης εξάγονται συμπεράσματα για τις διαφορετικές συμπεριφορές των δυο φύλων στο Twitter, σύμφωνα με το κάθε πεδίο. Στη συνέχεια, κάθε διακριτή προσέγγιση συνδυάζεται σε έναν υβριδικό αλγόριθμο μηχανικής μάθησης. Χρησιμοποιώντας τρία Πιθανολογικά Νευρωνικά Δίκτυα και μια Μηχανή Διανυσμάτων Υποστήριξης σε διαφορετικά στάδια της διαδικασίας, επιτεύχθει 87.2% accuracy στις προβλέψεις φύλου χρησιμοποιώντας τη μέθοδο 5-fold cross-validation για κάθε μοντέλο επιβλεπόμενης μάθησης. Όλα τα πειράματα πραγματοποιήθηκαν σε δείγμα χρηστών αντιπροσωπευτικό του συνολικού πληθυσμού του Τwitter για να γίνει βέβαιο ότι η προτεινόμενη μέθοδος μπορεί να γενικευτεί αξιόπιστα. Η εργασία αυτή καταδεικνύει ότι χρησιμοποιώντας μόνο έναν πολύ μικρό αριθμό χαρακτηριστικών από τα προφίλ χρηστών στο Twitter, είναι δυνατή η ανίχνευση του φύλου τους πετυχαίνοντας έναν πολύ καλό συνδυασμό κλιμακωσιμότητας (scalability) και ακρίβειας (accuracy). el
heal.abstract Online social networks have increased their popularity over the last few years, with Twitter being one of the most prominent. Despite the freedom of access granted by Twitter for its user-generated data, there are no obligatory fields in the user profiles that contain their demographics. This fact, along with the usefulness of demographics for scientific and commercial purposes, has led to a vast amount of studies that focus on indirect ways to detect the demographics of Twitter users. Especially for the detection of gender, many methodologies have been suggested based on machine learning algorithms. The majority of these methodologies are language-dependent and make use of a large amount of features in high-dimensional spaces. Due to this fact, they can target only users with specific nationalities and they are particularly time- and resource-consuming, so they can't efficiently scale to large populations of Twitter. Our approach is simple and efficient, using only the profile picture, the display name and the theme color extracted from profiles of users to detect their gender. This combination of fields has not been utilized in previous works to our knowledge. Throughout this study, we experimented with Naive Bayes, Support Vector Machines and Probabilistic Neural Networks as supervised learning gender classifiers. The classifiers were implemented in Python via the scikit-learn and neupy libraries. We also utilized the services of two reliable external sources: Face++ for image analysis and Genderize for name classification by gender. In the first part of our experiments, we present three distinct approaches based in each of the three aforementioned fields and we evaluate their performance. We also make conclusions about the different behaviors of the two genders in Twitter, in accordance to each field. In the next part, we combine each individual approach in a hybrid machine learning algorithm. Using three Probabilistic Neural Networks and a Support Vector Machine in different stages of the process, we achieve 87.2% accuracy in the prediction of gender using 5-fold cross-validation for every supervised model. All the experiments were made based on a user set that is representative of the entire Twitter population to make sure that our approach can be generalized reliably. We conclude that by using only a very small amount of features for Twitter users, we can classify them by gender with a very good combination of scalability and accuracy. en
heal.advisorName Ρουσσάκη, Ιωάννα el
heal.committeeMemberName Ρουσσάκη, Ιωάννα el
heal.committeeMemberName Συκάς, Ευστάθιος el
heal.committeeMemberName Παπαβασιλείου, Συμεών el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής el
heal.academicPublisherID ntua
heal.numberOfPages 107 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα