Ανίχνευση ηλικίας των χρηστών του Twitter μέσω υβριδικών αλγορίθμων μηχανικής μάθησης

Αγορογιάννης, Ευάγγελος; Agorogiannis, Efangelos

dc.contributor.author	Αγορογιάννης, Ευάγγελος	el
dc.contributor.author	Agorogiannis, Efangelos	en
dc.date.accessioned	2020-12-16T09:49:35Z
dc.date.available	2020-12-16T09:49:35Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/52558
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.20256
dc.rights	Default License
dc.subject	Κοινωνικά δίκτυα	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Ανίχνευση ηλικίας	el
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Παλινδρόμηση	el
dc.subject	Ταξινόμηση	el
dc.subject	Twitter	en
dc.subject	Machine learning	en
dc.subject	Natural Language Processing (NLP)	en
dc.subject	Social media	el
dc.title	Ανίχνευση ηλικίας των χρηστών του Twitter μέσω υβριδικών αλγορίθμων μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Μηχανική Μάθηση	el
heal.classification	Επεξεργασία Φυσικής Γλώσσας	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-11-12
heal.abstract	Τα τελευταία χρόνια η χρήση των μέσων κοινωνικής δικτύωσης είναι ευρεία και διαρκώς αυξανόμενη. Το Twitter, ακολουθώντας αυτή τη γενικότερη τάση, αποτελεί ένα από τα κοινωνικά δίκτυα που σημειώνει σημαντική άνοδο και γίνεται ιδιαίτερα δημοφιλές. Η πλατφόρμα αυτή παρέχει μεγάλο όγκο διαθέσιμων, ελεύθερων και εύκολα προσβάσιμων δεδομένων, η ανάλυση των οποίων στις μέρες μας αποτελεί κίνητρο για πολλούς ερευνητές ανά τον κόσμο και αποτελεί χρήσιμη πηγή πληροφοριών για πολλούς τομείς όπως οι επιχειρήσεις, η διαφήμιση και η υγεία. Επίσης, κρίνεται σημαντική η μελέτη τους με σκοπό να εξαχθούν στοιχεία για τις προτιμήσεις και τα ενδιαφέροντα των χρηστών. Ωστόσο, το Twitter παρά την πληθώρα δεδομένων που διαθέτει, δεν περιλαμβάνει δεδομένα σχετικά με τα δημογραφικά στοιχεία των χρηστών του, γεγονός που έχει προσελκύσει το ενδιαφέρον πολλών μελετητών για την εξαγωγή τέτοιου είδους πληροφορίας. Ειδικότερα για την ανίχνευση της ηλικίας, έχουν πραγματοποιηθεί πολλές έρευνες αξιοποιώντας τα διαθέσιμα δεδομένα και εφαρμόζοντας τεχνικές μηχανικής μάθησης για την επίλυση του προβλήματος. Στην παρούσα διπλωματική εργασία προτείνονται δύο προσεγγίσεις για την ανίχνευση της ηλικίας των χρηστών του Twitter. Η πρώτη υλοποιείται με την δοκιμή αλγορίθμων παλινδρόμησης ώστε να πραγματοποιηθεί πρόβλεψη για την ακριβή τιμή της ηλικίας, ενώ η δεύτερη επιδιώκει μέσω εφαρμογής μοντέλων ταξινόμησης να πραγματοποιήσει προβλέψεις ώστε να τους κατηγοριοποιήσει σε 8 ηλικιακές ομάδες. Για την διεξαγωγή των πειραμάτων λαμβάνονται και αξιοποιούνται δεδομένα που παρέχει το Twitter. Συγκεκριμένα, έπειτα από την επεξεργασία αυτών των πληροφοριών και την παραγωγή νέων μεταδεδομένων, δημιουργείται ένα μεγάλο σύνολο χαρακτηριστικών. Αυτά περιλαμβάνουν στατιστικά στοιχεία σχετικά με το προφίλ του χρήστη στην ιστοσελίδα, καθώς και λεξικογραφικά δεδομένα που εξήχθησαν από τα tweets τους μέσω εφαρμογής τεχνικών Επεξεργασίας Φυσικής Γλώσσας κειμένου. Ορισμένα από αυτά είναι το πλήθος των followers, των followings, των likes, των δημοσιεύσεων, των αναδημοσιεύσεων, το θέμα που αναφέρονται τα tweets αλλά και ο αριθμός των hashtags (#) ή των tags (@) που περιέχουν. Το σύνολο των χαρακτηριστικών αποτελεί την είσοδο για τους διάφορους αλγορίθμους παλινδρόμησης και ταξινόμησης που δοκιμάστηκαν. Για την ανάδειξη του βέλτιστου μοντέλου προβλέψεων για κάθε περίπτωση χρησιμοποιήθηκε η μέθοδος βελτίωσης υπερπαραμέτρων και cross-validation μέσω του RandomizedSearchCV αλγορίθμου. Αυτή η μελέτη και για τις δύο προσεγγίσεις οδήγησε στην επιλογή του XGBoost μοντέλου ως καταλληλότερου για την ανίχνευση της ηλικίας, το οποίο παρουσίασε μέσο απόλυτο σφάλμα MAE ίσο με 4,09 έτη στην παλινδρόμηση και ακρίβεια (accuracy) 70% στην ταξινόμηση. Για τις ανάγκες της παρούσας διπλωματικής εργασίας, συλλέγονται δεδομένα για το προφίλ και τα tweets ενός συνόλου χρηστών του Twitter ταυτοποιημένων ηλικιακά. Τα δεδομένα αυτά υπόκεινται σε μία σειρά από τεχνικές επεξεργασίας και οδηγούν στην πραγματοποίηση προβλέψεων για την ανίχνευση της ακριβούς ηλικίας και της ηλικιακής ομάδας που ανήκουν οι χρήστες, καταδεικνύοντας με αυτόν τον τρόπο την σπουδαιότητα των πληροφοριών που παρέχει το Twitter για την επίλυση του προβλήματος.	el
heal.advisorName	Ρουσσάκη, Ιωάννα	el
heal.committeeMemberName	Παπαβασιλείου, Συμεών	el
heal.committeeMemberName	Αναγνώστου, Μιλτιάδης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	144 σ.	el
heal.fullTextAvailability	false