HEAL DSpace

Ανίχνευση ηλικίας των χρηστών του Twitter μέσω υβριδικών αλγορίθμων μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Αγορογιάννης, Ευάγγελος el
dc.contributor.author Agorogiannis, Efangelos en
dc.date.accessioned 2020-12-16T09:49:35Z
dc.date.available 2020-12-16T09:49:35Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/52558
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.20256
dc.rights Default License
dc.subject Κοινωνικά δίκτυα el
dc.subject Μηχανική μάθηση el
dc.subject Ανίχνευση ηλικίας el
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Παλινδρόμηση el
dc.subject Ταξινόμηση el
dc.subject Twitter en
dc.subject Machine learning en
dc.subject Natural Language Processing (NLP) en
dc.subject Social media el
dc.title Ανίχνευση ηλικίας των χρηστών του Twitter μέσω υβριδικών αλγορίθμων μηχανικής μάθησης el
heal.type bachelorThesis
heal.classification Μηχανική Μάθηση el
heal.classification Επεξεργασία Φυσικής Γλώσσας el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-11-12
heal.abstract Τα τελευταία χρόνια η χρήση των μέσων κοινωνικής δικτύωσης είναι ευρεία και διαρκώς αυξανόμενη. Το Twitter, ακολουθώντας αυτή τη γενικότερη τάση, αποτελεί ένα από τα κοινωνικά δίκτυα που σημειώνει σημαντική άνοδο και γίνεται ιδιαίτερα δημοφιλές. Η πλατφόρμα αυτή παρέχει μεγάλο όγκο διαθέσιμων, ελεύθερων και εύκολα προσβάσιμων δεδομένων, η ανάλυση των οποίων στις μέρες μας αποτελεί κίνητρο για πολλούς ερευνητές ανά τον κόσμο και αποτελεί χρήσιμη πηγή πληροφοριών για πολλούς τομείς όπως οι επιχειρήσεις, η διαφήμιση και η υγεία. Επίσης, κρίνεται σημαντική η μελέτη τους με σκοπό να εξαχθούν στοιχεία για τις προτιμήσεις και τα ενδιαφέροντα των χρηστών. Ωστόσο, το Twitter παρά την πληθώρα δεδομένων που διαθέτει, δεν περιλαμβάνει δεδομένα σχετικά με τα δημογραφικά στοιχεία των χρηστών του, γεγονός που έχει προσελκύσει το ενδιαφέρον πολλών μελετητών για την εξαγωγή τέτοιου είδους πληροφορίας. Ειδικότερα για την ανίχνευση της ηλικίας, έχουν πραγματοποιηθεί πολλές έρευνες αξιοποιώντας τα διαθέσιμα δεδομένα και εφαρμόζοντας τεχνικές μηχανικής μάθησης για την επίλυση του προβλήματος. Στην παρούσα διπλωματική εργασία προτείνονται δύο προσεγγίσεις για την ανίχνευση της ηλικίας των χρηστών του Twitter. Η πρώτη υλοποιείται με την δοκιμή αλγορίθμων παλινδρόμησης ώστε να πραγματοποιηθεί πρόβλεψη για την ακριβή τιμή της ηλικίας, ενώ η δεύτερη επιδιώκει μέσω εφαρμογής μοντέλων ταξινόμησης να πραγματοποιήσει προβλέψεις ώστε να τους κατηγοριοποιήσει σε 8 ηλικιακές ομάδες. Για την διεξαγωγή των πειραμάτων λαμβάνονται και αξιοποιούνται δεδομένα που παρέχει το Twitter. Συγκεκριμένα, έπειτα από την επεξεργασία αυτών των πληροφοριών και την παραγωγή νέων μεταδεδομένων, δημιουργείται ένα μεγάλο σύνολο χαρακτηριστικών. Αυτά περιλαμβάνουν στατιστικά στοιχεία σχετικά με το προφίλ του χρήστη στην ιστοσελίδα, καθώς και λεξικογραφικά δεδομένα που εξήχθησαν από τα tweets τους μέσω εφαρμογής τεχνικών Επεξεργασίας Φυσικής Γλώσσας κειμένου. Ορισμένα από αυτά είναι το πλήθος των followers, των followings, των likes, των δημοσιεύσεων, των αναδημοσιεύσεων, το θέμα που αναφέρονται τα tweets αλλά και ο αριθμός των hashtags (#) ή των tags (@) που περιέχουν. Το σύνολο των χαρακτηριστικών αποτελεί την είσοδο για τους διάφορους αλγορίθμους παλινδρόμησης και ταξινόμησης που δοκιμάστηκαν. Για την ανάδειξη του βέλτιστου μοντέλου προβλέψεων για κάθε περίπτωση χρησιμοποιήθηκε η μέθοδος βελτίωσης υπερπαραμέτρων και cross-validation μέσω του RandomizedSearchCV αλγορίθμου. Αυτή η μελέτη και για τις δύο προσεγγίσεις οδήγησε στην επιλογή του XGBoost μοντέλου ως καταλληλότερου για την ανίχνευση της ηλικίας, το οποίο παρουσίασε μέσο απόλυτο σφάλμα MAE ίσο με 4,09 έτη στην παλινδρόμηση και ακρίβεια (accuracy) 70% στην ταξινόμηση. Για τις ανάγκες της παρούσας διπλωματικής εργασίας, συλλέγονται δεδομένα για το προφίλ και τα tweets ενός συνόλου χρηστών του Twitter ταυτοποιημένων ηλικιακά. Τα δεδομένα αυτά υπόκεινται σε μία σειρά από τεχνικές επεξεργασίας και οδηγούν στην πραγματοποίηση προβλέψεων για την ανίχνευση της ακριβούς ηλικίας και της ηλικιακής ομάδας που ανήκουν οι χρήστες, καταδεικνύοντας με αυτόν τον τρόπο την σπουδαιότητα των πληροφοριών που παρέχει το Twitter για την επίλυση του προβλήματος. el
heal.advisorName Ρουσσάκη, Ιωάννα el
heal.committeeMemberName Παπαβασιλείου, Συμεών el
heal.committeeMemberName Αναγνώστου, Μιλτιάδης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής el
heal.academicPublisherID ntua
heal.numberOfPages 144 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής