HEAL DSpace

Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μαστραπάς, Γεώργιος el
dc.contributor.author Mastrapas, Georgios en
dc.date.accessioned 2016-07-26T11:52:04Z
dc.date.available 2016-07-26T11:52:04Z
dc.date.issued 2016-07-26
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/43285
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.12833
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Ανάλυση συναισθήματος el
dc.subject Μηχανική μάθηση el
dc.subject Διανυσματικές αναπαραστάσεις λέξεων el
dc.subject Βαθιά μάθηση el
dc.subject Συνελικτικά νευρωνικά δίκτυα el
dc.subject Twitter en
dc.subject word2vec el
dc.subject GloVe el
dc.title Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους μηχανικής μάθησης el
heal.type bachelorThesis
heal.classification Βασική μηχανική μάθηση el
heal.classificationURI http://data.seab.gr/concepts/fec24cd140d4b110c225ac68fec062a57fb86360
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-07-19
heal.abstract Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους επιβλεπόμενης μηχανικής μάθησης. Ανάλυση συναισθήματος καλείται η αυτοματοποιημένη διαδικασία εξαγωγής πληροφοριών για την συναισθηματική πολικότητα ενός σώματος κειμένου και συχνά αναφέρεται εναλλακτικά ως εξόρυξη γνώμης. Αποτελεί ένα πεδίο έρευνας, που προσελκύει έντονο ενδιαφέρον τα τελευταία χρόνια εξαιτίας της μεγάλης επιρροής των κοινωνικών δικτύων στην καθημερινότητά μας, του αυτοματοποιημένου τρόπου που παρέχει για την ανάλυση της γραπτής πληροφορίας που αφθονεί σε διαδικτυακές πηγές αλλά και της σημαντικής πρoόδου που σημειώνεται τελευταία στα πεδία της μηχανικής μάθησης, της τεχνητής νοημοσύνης και της βαθιάς μάθησης. Η αναγνώριση του συναισθήματος γίνεται σε δύο κατηγορίες, θετικό και αρνητικό συναίσθημα και για τις ανάγκες της εργασίας χρησιμοποιείται ένα σύνολο από περίπου 20,800 tweets με αντίστοιχες ετικέτες συναισθήματος. Προτείνεται μία μέθοδος προεπεξεργασίας των tweets που χειρίζεται όλους τους ειδικούς όρους που απαντώνται σε αυτά και εξετάζονται διάφοροι αλγόριθμοι επιβλεπόμενης μάθησης. Αυτοί είναι οι αλγόριθμοι ταξινόμησης κατά Bayes, ο αλγόριθμος k-Nearest Neighbors, η λογιστική παλινδρόμηση ή αλγόριθμος μέγιστης εντροπίας, οι μηχανές διανυσμάτων υποστήριξης, τα τεχνητά νευρωνικά δίκτυα και τα συνελικτικά νευρωνικά δίκτυα. Παράλληλα, εξετάζονται διάφοροι τρόποι εξαγωγής χαρακτηριστικών από δεδομένα κειμένου και συγκεκριμένα η κλασσική μέθοδος Bag-of-Words με τις παραλλαγές term occurrence, term frequency και tf-idf (term frequency - inverse document frequency) και οι διανυσματικές αναπαραστάσεις λέξεων που καλούνται word vectors. Μελετάμε νευρωνικά γλωσσικά μοντέλα όπως το word2vec και count-based μοντέλα όπως το GloVe. Οι διανυσματικές αναπαραστάσεις συντίθενται με διάφορους απλούς τρόπους αλλά και με τον αλγόριθμο doc2vec. Οι παραπάνω ιδέες αξιολογούνται όλες στο σύνολο δεδομένων. Η εργασία καταλήγει στο συμπέρασμα πως οι κλασσικές τεχνικές ανάλυσης συναισθήματος όπως ο αλγόριθμος μέγιστης εντροπίας ή οι μηχανές διανυσμάτων υποστήριξης, με Bag-of-Words χαρακτηριστικά συμπεριφέρονται πολύ καλά στο πρόβλημα παρέχοντας γρήγορες υλοποιήσεις και αξιόπιστες επιδόσεις. Ωστόσο οι διανυσματικές αναπαραστάσεις λέξεων σε συνδυασμό με τεχνικές βαθιάς μάθησης που εκμεταλλεύονται την πληροφορία της σύνταξης ή σειράς των λέξεων, όπως τα συνελικτικά νευρωνικά δίκτυα, παρουσιάζουν καλύτερες επιδόσεις οδηγώντας την υπολογιστική κατανόηση φυσικού λόγου ένα βήμα πιο κοντά στην ανθρώπινη el
heal.abstract The subject of this diploma thesis is sen timent analysis in Twitter data, using methods of supervised machine learning. Sentiment analysis is the automate d process for extracting information about the sentiment polarity of a given body of text and is often, alternatively r eferred to, as opinion mining. It is a field of study that currently attracts a lot of academic attention due to the impact of social net works in our everyday life, the automated way it offers for analyzing the written information hugely available in web sources, and also because of the substantial progress being made in the last years, in the fields of machine learning, artificial intellig ence and deep learning. The detection of sentiment polarity is made in two broad categories of sentiment, namely positive and negative sentiment . For the purpose of this project, we use a labeled dataset of approximately 20,800 tweets with the respective labe ls. A preprocessing method for T witter data is proposed, that handles all the special tokens found in tweets, and a number of supervised learning algorithms are examined. These are the Naive Bayes classifier, the 푘 - Nearest Neighbors algorithm, the Logistic Regression or Maximum Entropy classifier, the Support Vector Machine, the Artificial Neural Network and last but not least the Convolutional Neural Network. Additionally, we examine various ways of extracting fe atures from text and specifically the Bag - of - Words model with the variations term occurrence, term frequency and tf - idf (term frequency - inverse document frequency) and the distributed vector representations of words which are simply called word vectors. These word vectors include neural language models like word2vec and count - based models like GloVe. The vector representations are being composed in various simple ways but also using the doc2vec model. All the above ideas are being tested in our Twitter da taset. The dissertation finally concludes that the simple and classic techniques for sentiment analysis like the Maximum Entropy algorithm or the Support Vector Machine, with Bag - of - Words features, perform really well and offer fast computing and reliable performance. However, word vectors combined with deep learning techniques that take advantage of syntax or word order, like the Convolutional Neural Network, perform better, leading computer understanding of natural language one step closer to human. en
heal.advisorName Κόλλιας, Στέφανος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Καρπούζης, Κωνσταντίνος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 138 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα