heal.abstract |
Τα τελευταία χρόνια η χρήση των μέσων κοινωνικής δικτύωσης είναι ευρεία και διαρκώς αυξανόμενη. Το Twitter, ακολουθώντας αυτή τη γενικότερη τάση, αποτελεί ένα από τα κοινωνικά δίκτυα που σημειώνει σημαντική άνοδο και γίνεται ιδιαίτερα δημοφιλές. Η πλατφόρμα αυτή παρέχει μεγάλο όγκο διαθέσιμων, ελεύθερων και εύκολα προσβάσιμων δεδομένων, η ανάλυση των οποίων στις μέρες μας αποτελεί κίνητρο για πολλούς ερευνητές ανά τον κόσμο και αποτελεί χρήσιμη πηγή πληροφοριών για πολλούς τομείς όπως οι επιχειρήσεις, η διαφήμιση και η υγεία. Επίσης, κρίνεται σημαντική η μελέτη τους με σκοπό να εξαχθούν στοιχεία για τις προτιμήσεις και τα ενδιαφέροντα των χρηστών. Ωστόσο, το Twitter παρά την πληθώρα δεδομένων που διαθέτει, δεν περιλαμβάνει δεδομένα σχετικά με τα δημογραφικά στοιχεία των χρηστών του, γεγονός που έχει προσελκύσει το ενδιαφέρον πολλών μελετητών για την εξαγωγή τέτοιου είδους πληροφορίας. Ειδικότερα για την ανίχνευση της ηλικίας, έχουν πραγματοποιηθεί πολλές έρευνες αξιοποιώντας τα διαθέσιμα δεδομένα και εφαρμόζοντας τεχνικές μηχανικής μάθησης για την επίλυση του προβλήματος.
Στην παρούσα διπλωματική εργασία προτείνονται δύο προσεγγίσεις για την ανίχνευση της ηλικίας των χρηστών του Twitter. Η πρώτη υλοποιείται με την δοκιμή αλγορίθμων παλινδρόμησης ώστε να πραγματοποιηθεί πρόβλεψη για την ακριβή τιμή της ηλικίας, ενώ η δεύτερη επιδιώκει μέσω εφαρμογής μοντέλων ταξινόμησης να πραγματοποιήσει προβλέψεις ώστε να τους κατηγοριοποιήσει σε 8 ηλικιακές ομάδες. Για την διεξαγωγή των πειραμάτων λαμβάνονται και αξιοποιούνται δεδομένα που παρέχει το Twitter. Συγκεκριμένα, έπειτα από την επεξεργασία αυτών των πληροφοριών και την παραγωγή νέων μεταδεδομένων, δημιουργείται ένα μεγάλο σύνολο χαρακτηριστικών. Αυτά περιλαμβάνουν στατιστικά στοιχεία σχετικά με το προφίλ του χρήστη στην ιστοσελίδα, καθώς και λεξικογραφικά δεδομένα που εξήχθησαν από τα tweets τους μέσω εφαρμογής τεχνικών Επεξεργασίας Φυσικής Γλώσσας κειμένου. Ορισμένα από αυτά είναι το πλήθος των followers, των followings, των likes, των δημοσιεύσεων, των αναδημοσιεύσεων, το θέμα που αναφέρονται τα tweets αλλά και ο αριθμός των hashtags (#) ή των tags (@) που περιέχουν. Το σύνολο των χαρακτηριστικών αποτελεί την είσοδο για τους διάφορους αλγορίθμους παλινδρόμησης και ταξινόμησης που δοκιμάστηκαν. Για την ανάδειξη του βέλτιστου μοντέλου προβλέψεων για κάθε περίπτωση χρησιμοποιήθηκε η μέθοδος βελτίωσης υπερπαραμέτρων και cross-validation μέσω του RandomizedSearchCV αλγορίθμου. Αυτή η μελέτη και για τις δύο προσεγγίσεις οδήγησε στην επιλογή του XGBoost μοντέλου ως καταλληλότερου για την ανίχνευση της ηλικίας, το οποίο παρουσίασε μέσο απόλυτο σφάλμα MAE ίσο με 4,09 έτη στην παλινδρόμηση και ακρίβεια (accuracy) 70% στην ταξινόμηση.
Για τις ανάγκες της παρούσας διπλωματικής εργασίας, συλλέγονται δεδομένα για το προφίλ και τα tweets ενός συνόλου χρηστών του Twitter ταυτοποιημένων ηλικιακά. Τα δεδομένα αυτά υπόκεινται σε μία σειρά από τεχνικές επεξεργασίας και οδηγούν στην πραγματοποίηση προβλέψεων για την ανίχνευση της ακριβούς ηλικίας και της ηλικιακής ομάδας που ανήκουν οι χρήστες, καταδεικνύοντας με αυτόν τον τρόπο την σπουδαιότητα των πληροφοριών που παρέχει το Twitter για την επίλυση του προβλήματος. |
el |