Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους μηχανικής μάθησης

Μαστραπάς, Γεώργιος; Mastrapas, Georgios

dc.contributor.author	Μαστραπάς, Γεώργιος	el
dc.contributor.author	Mastrapas, Georgios	en
dc.date.accessioned	2016-07-26T11:52:04Z
dc.date.available	2016-07-26T11:52:04Z
dc.date.issued	2016-07-26
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/43285
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.12833
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Ανάλυση συναισθήματος	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Διανυσματικές αναπαραστάσεις λέξεων	el
dc.subject	Βαθιά μάθηση	el
dc.subject	Συνελικτικά νευρωνικά δίκτυα	el
dc.subject	Twitter	en
dc.subject	word2vec	el
dc.subject	GloVe	el
dc.title	Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Βασική μηχανική μάθηση	el
heal.classificationURI	http://data.seab.gr/concepts/fec24cd140d4b110c225ac68fec062a57fb86360
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2016-07-19
heal.abstract	Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους επιβλεπόμενης μηχανικής μάθησης. Ανάλυση συναισθήματος καλείται η αυτοματοποιημένη διαδικασία εξαγωγής πληροφοριών για την συναισθηματική πολικότητα ενός σώματος κειμένου και συχνά αναφέρεται εναλλακτικά ως εξόρυξη γνώμης. Αποτελεί ένα πεδίο έρευνας, που προσελκύει έντονο ενδιαφέρον τα τελευταία χρόνια εξαιτίας της μεγάλης επιρροής των κοινωνικών δικτύων στην καθημερινότητά μας, του αυτοματοποιημένου τρόπου που παρέχει για την ανάλυση της γραπτής πληροφορίας που αφθονεί σε διαδικτυακές πηγές αλλά και της σημαντικής πρoόδου που σημειώνεται τελευταία στα πεδία της μηχανικής μάθησης, της τεχνητής νοημοσύνης και της βαθιάς μάθησης. Η αναγνώριση του συναισθήματος γίνεται σε δύο κατηγορίες, θετικό και αρνητικό συναίσθημα και για τις ανάγκες της εργασίας χρησιμοποιείται ένα σύνολο από περίπου 20,800 tweets με αντίστοιχες ετικέτες συναισθήματος. Προτείνεται μία μέθοδος προεπεξεργασίας των tweets που χειρίζεται όλους τους ειδικούς όρους που απαντώνται σε αυτά και εξετάζονται διάφοροι αλγόριθμοι επιβλεπόμενης μάθησης. Αυτοί είναι οι αλγόριθμοι ταξινόμησης κατά Bayes, ο αλγόριθμος k-Nearest Neighbors, η λογιστική παλινδρόμηση ή αλγόριθμος μέγιστης εντροπίας, οι μηχανές διανυσμάτων υποστήριξης, τα τεχνητά νευρωνικά δίκτυα και τα συνελικτικά νευρωνικά δίκτυα. Παράλληλα, εξετάζονται διάφοροι τρόποι εξαγωγής χαρακτηριστικών από δεδομένα κειμένου και συγκεκριμένα η κλασσική μέθοδος Bag-of-Words με τις παραλλαγές term occurrence, term frequency και tf-idf (term frequency - inverse document frequency) και οι διανυσματικές αναπαραστάσεις λέξεων που καλούνται word vectors. Μελετάμε νευρωνικά γλωσσικά μοντέλα όπως το word2vec και count-based μοντέλα όπως το GloVe. Οι διανυσματικές αναπαραστάσεις συντίθενται με διάφορους απλούς τρόπους αλλά και με τον αλγόριθμο doc2vec. Οι παραπάνω ιδέες αξιολογούνται όλες στο σύνολο δεδομένων. Η εργασία καταλήγει στο συμπέρασμα πως οι κλασσικές τεχνικές ανάλυσης συναισθήματος όπως ο αλγόριθμος μέγιστης εντροπίας ή οι μηχανές διανυσμάτων υποστήριξης, με Bag-of-Words χαρακτηριστικά συμπεριφέρονται πολύ καλά στο πρόβλημα παρέχοντας γρήγορες υλοποιήσεις και αξιόπιστες επιδόσεις. Ωστόσο οι διανυσματικές αναπαραστάσεις λέξεων σε συνδυασμό με τεχνικές βαθιάς μάθησης που εκμεταλλεύονται την πληροφορία της σύνταξης ή σειράς των λέξεων, όπως τα συνελικτικά νευρωνικά δίκτυα, παρουσιάζουν καλύτερες επιδόσεις οδηγώντας την υπολογιστική κατανόηση φυσικού λόγου ένα βήμα πιο κοντά στην ανθρώπινη	el
heal.abstract	The subject of this diploma thesis is sen timent analysis in Twitter data, using methods of supervised machine learning. Sentiment analysis is the automate d process for extracting information about the sentiment polarity of a given body of text and is often, alternatively r eferred to, as opinion mining. It is a field of study that currently attracts a lot of academic attention due to the impact of social net works in our everyday life, the automated way it offers for analyzing the written information hugely available in web sources, and also because of the substantial progress being made in the last years, in the fields of machine learning, artificial intellig ence and deep learning. The detection of sentiment polarity is made in two broad categories of sentiment, namely positive and negative sentiment . For the purpose of this project, we use a labeled dataset of approximately 20,800 tweets with the respective labe ls. A preprocessing method for T witter data is proposed, that handles all the special tokens found in tweets, and a number of supervised learning algorithms are examined. These are the Naive Bayes classifier, the 푘 - Nearest Neighbors algorithm, the Logistic Regression or Maximum Entropy classifier, the Support Vector Machine, the Artificial Neural Network and last but not least the Convolutional Neural Network. Additionally, we examine various ways of extracting fe atures from text and specifically the Bag - of - Words model with the variations term occurrence, term frequency and tf - idf (term frequency - inverse document frequency) and the distributed vector representations of words which are simply called word vectors. These word vectors include neural language models like word2vec and count - based models like GloVe. The vector representations are being composed in various simple ways but also using the doc2vec model. All the above ideas are being tested in our Twitter da taset. The dissertation finally concludes that the simple and classic techniques for sentiment analysis like the Maximum Entropy algorithm or the Support Vector Machine, with Bag - of - Words features, perform really well and offer fast computing and reliable performance. However, word vectors combined with deep learning techniques that take advantage of syntax or word order, like the Convolutional Neural Network, perform better, leading computer understanding of natural language one step closer to human.	en
heal.advisorName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Καρπούζης, Κωνσταντίνος	el
heal.committeeMemberName	Στάμου, Γεώργιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	138 σ.
heal.fullTextAvailability	true