dc.contributor.author | Μαστραπάς, Γεώργιος | el |
dc.contributor.author | Mastrapas, Georgios | en |
dc.date.accessioned | 2016-07-26T11:52:04Z | |
dc.date.available | 2016-07-26T11:52:04Z | |
dc.date.issued | 2016-07-26 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/43285 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.12833 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Ανάλυση συναισθήματος | el |
dc.subject | Μηχανική μάθηση | el |
dc.subject | Διανυσματικές αναπαραστάσεις λέξεων | el |
dc.subject | Βαθιά μάθηση | el |
dc.subject | Συνελικτικά νευρωνικά δίκτυα | el |
dc.subject | en | |
dc.subject | word2vec | el |
dc.subject | GloVe | el |
dc.title | Ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους μηχανικής μάθησης | el |
heal.type | bachelorThesis | |
heal.classification | Βασική μηχανική μάθηση | el |
heal.classificationURI | http://data.seab.gr/concepts/fec24cd140d4b110c225ac68fec062a57fb86360 | |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2016-07-19 | |
heal.abstract | Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση συναισθήματος σε δεδομένα του κοινωνικού δικτύου Twitter με μεθόδους επιβλεπόμενης μηχανικής μάθησης. Ανάλυση συναισθήματος καλείται η αυτοματοποιημένη διαδικασία εξαγωγής πληροφοριών για την συναισθηματική πολικότητα ενός σώματος κειμένου και συχνά αναφέρεται εναλλακτικά ως εξόρυξη γνώμης. Αποτελεί ένα πεδίο έρευνας, που προσελκύει έντονο ενδιαφέρον τα τελευταία χρόνια εξαιτίας της μεγάλης επιρροής των κοινωνικών δικτύων στην καθημερινότητά μας, του αυτοματοποιημένου τρόπου που παρέχει για την ανάλυση της γραπτής πληροφορίας που αφθονεί σε διαδικτυακές πηγές αλλά και της σημαντικής πρoόδου που σημειώνεται τελευταία στα πεδία της μηχανικής μάθησης, της τεχνητής νοημοσύνης και της βαθιάς μάθησης. Η αναγνώριση του συναισθήματος γίνεται σε δύο κατηγορίες, θετικό και αρνητικό συναίσθημα και για τις ανάγκες της εργασίας χρησιμοποιείται ένα σύνολο από περίπου 20,800 tweets με αντίστοιχες ετικέτες συναισθήματος. Προτείνεται μία μέθοδος προεπεξεργασίας των tweets που χειρίζεται όλους τους ειδικούς όρους που απαντώνται σε αυτά και εξετάζονται διάφοροι αλγόριθμοι επιβλεπόμενης μάθησης. Αυτοί είναι οι αλγόριθμοι ταξινόμησης κατά Bayes, ο αλγόριθμος k-Nearest Neighbors, η λογιστική παλινδρόμηση ή αλγόριθμος μέγιστης εντροπίας, οι μηχανές διανυσμάτων υποστήριξης, τα τεχνητά νευρωνικά δίκτυα και τα συνελικτικά νευρωνικά δίκτυα. Παράλληλα, εξετάζονται διάφοροι τρόποι εξαγωγής χαρακτηριστικών από δεδομένα κειμένου και συγκεκριμένα η κλασσική μέθοδος Bag-of-Words με τις παραλλαγές term occurrence, term frequency και tf-idf (term frequency - inverse document frequency) και οι διανυσματικές αναπαραστάσεις λέξεων που καλούνται word vectors. Μελετάμε νευρωνικά γλωσσικά μοντέλα όπως το word2vec και count-based μοντέλα όπως το GloVe. Οι διανυσματικές αναπαραστάσεις συντίθενται με διάφορους απλούς τρόπους αλλά και με τον αλγόριθμο doc2vec. Οι παραπάνω ιδέες αξιολογούνται όλες στο σύνολο δεδομένων. Η εργασία καταλήγει στο συμπέρασμα πως οι κλασσικές τεχνικές ανάλυσης συναισθήματος όπως ο αλγόριθμος μέγιστης εντροπίας ή οι μηχανές διανυσμάτων υποστήριξης, με Bag-of-Words χαρακτηριστικά συμπεριφέρονται πολύ καλά στο πρόβλημα παρέχοντας γρήγορες υλοποιήσεις και αξιόπιστες επιδόσεις. Ωστόσο οι διανυσματικές αναπαραστάσεις λέξεων σε συνδυασμό με τεχνικές βαθιάς μάθησης που εκμεταλλεύονται την πληροφορία της σύνταξης ή σειράς των λέξεων, όπως τα συνελικτικά νευρωνικά δίκτυα, παρουσιάζουν καλύτερες επιδόσεις οδηγώντας την υπολογιστική κατανόηση φυσικού λόγου ένα βήμα πιο κοντά στην ανθρώπινη | el |
heal.abstract | The subject of this diploma thesis is sen timent analysis in Twitter data, using methods of supervised machine learning. Sentiment analysis is the automate d process for extracting information about the sentiment polarity of a given body of text and is often, alternatively r eferred to, as opinion mining. It is a field of study that currently attracts a lot of academic attention due to the impact of social net works in our everyday life, the automated way it offers for analyzing the written information hugely available in web sources, and also because of the substantial progress being made in the last years, in the fields of machine learning, artificial intellig ence and deep learning. The detection of sentiment polarity is made in two broad categories of sentiment, namely positive and negative sentiment . For the purpose of this project, we use a labeled dataset of approximately 20,800 tweets with the respective labe ls. A preprocessing method for T witter data is proposed, that handles all the special tokens found in tweets, and a number of supervised learning algorithms are examined. These are the Naive Bayes classifier, the 푘 - Nearest Neighbors algorithm, the Logistic Regression or Maximum Entropy classifier, the Support Vector Machine, the Artificial Neural Network and last but not least the Convolutional Neural Network. Additionally, we examine various ways of extracting fe atures from text and specifically the Bag - of - Words model with the variations term occurrence, term frequency and tf - idf (term frequency - inverse document frequency) and the distributed vector representations of words which are simply called word vectors. These word vectors include neural language models like word2vec and count - based models like GloVe. The vector representations are being composed in various simple ways but also using the doc2vec model. All the above ideas are being tested in our Twitter da taset. The dissertation finally concludes that the simple and classic techniques for sentiment analysis like the Maximum Entropy algorithm or the Support Vector Machine, with Bag - of - Words features, perform really well and offer fast computing and reliable performance. However, word vectors combined with deep learning techniques that take advantage of syntax or word order, like the Convolutional Neural Network, perform better, leading computer understanding of natural language one step closer to human. | en |
heal.advisorName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Καρπούζης, Κωνσταντίνος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 138 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: