HEAL DSpace

Ανάλυση συναισθήματος από κείμενο με τεχνικές μηχανικής μάθησης και χρήση λεξικού

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Παπαδάκης, Εμμανουήλ el
dc.contributor.author Papadakis, Emmanouil en
dc.date.accessioned 2016-07-20T10:36:48Z
dc.date.available 2016-07-20T10:36:48Z
dc.date.issued 2016-07-20
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/43188
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.12391
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Ανάλυση συναισθήματος el
dc.subject Συναισθηματικό λεξικό el
dc.subject Μηχανική μάθηση el
dc.subject Βαθιά μάθηση el
dc.subject Συνελικτικά νευρωνικά δίκτυα el
dc.subject Sentiment analysis en
dc.subject Sentiment lexicon en
dc.subject Machine learning en
dc.subject Deep learning en
dc.subject Convolutional neural networks en
dc.title Ανάλυση συναισθήματος από κείμενο με τεχνικές μηχανικής μάθησης και χρήση λεξικού el
heal.type bachelorThesis
heal.classification Μηχανική μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-06-22
heal.abstract Η ανάπτυξη του διαδικτύου τα τελευταία χρόνια και η ανταλλαγή τεραστίων ποσοτήτων πληροφορίας μεταξύ των χρηστών σε όλο τον κόσμο καθιστά επιτακτική την μελέτη και ανάλυση αλγορίθμων που συμπεραίνουν αυτοματοποιημένα τα συναισθήματα, τις επιθυμίες και τις πεποιθήσεις των ανθρώπων με βάση το κείμενο. Το πρόβλημα αυτό μελετάται από το πεδίο της ανάλυσης συναισθήματος, το οποίο αναπτύσσεται ραγδαία λόγω του έντονου ενδιαφέροντος της επιστημονικής και βιομηχανικής κοινότητας. Στην παρούσα διπλωματική εξετάζεται το πρόβλημα της ταξινόμησης κριτικών ταινιών με βάση την πολικότητα της άποψης σε θετικές ή αρνητικές. Το σύνολο δεδομένων από κριτικές ταινιών που χρησιμοποιήθηκε είναι αυτό που εισηγήθηκε από τους Pang και Lee και χρησιμοποιείται έκτοτε ευρέως. Για την αντιμετώπιση του προβλήματος εξετάσαμε τη χρήση συναισθηματικού λεξικού και συγκεκριμένα του SenticNet, ένα συναισθηματικό λεξικό 30000 εννοιών της αγγλικής γλώσσας δίνοντας προσοχή στα φαινόμενα της άρνησης και της αντίθεσης. Εξετάσαμε επίσης τη χρήση αλγορίθμων παραδοσιακής επιβλεπόμενης μηχανικής μάθησης, όπως ο Naive Bayes, o Maximum Entropy, οι Μηχανές Διανυσμάτων Υποστήριξης (SVMs) και τα Τεχνητά Νευρωνικά Δίκτυα αλλά και αλγορίθμων βαθιάς μηχανικής μάθησης, όπως είναι τα Συνελικτικά Νευρωνικά Δίκτυα (ΣΝΔ). Στον αλγόριθμο Naive Bayes, πειραματιστήκαμε με την χρήση και των δύο βασικών εκδοχών του που χρησιμοποιούνται στην ταξινόμηση κειμένου, Multinomial Naive Bayes και Bernoulli Naive Bayes. Στην υλοποίηση με SVMs πειραματιστήκαμε με τον πυρήνα και σαν πυρήνες χρησιμοποιήθηκαν ο γραμμικός και ο rbf γκαουσιανός. Στην υλοποίηση με τεχνητά νευρωνικά δίκτυα επικεντρωθήκαμε σε αρχιτεκτονικές τριών επιπέδων και πειραματιστήκαμε με τον αριθμό των κρυφών νευρώνων. Σαν χαρακτηριστικά για τους αλγορίθμους μηχανικής μάθησης (πλην των ΣΝΔ που μαθαίνουν μόνα τους τα χαρακτηριστικά κάτι που αποτελεί πλεονέκτημά τους) χρησιμοποιήσαμε βασικά την Bag-of-Concepts αναπαράσταση του κειμένου και σαν έννοιες χρησιμοποιήσαμε ένα υποσύνολο των καταχωρήσεων του SenticNet. Στο τελικό στάδιο της εργασίας, επιχειρήσαμε να συνδυάσουμε τους επιμέρους ταξινομητές για να επωφεληθούμε από το συνδυασμό της γνώσης. Ο συνδυασμός αυτός καλείται συνολική μάθηση και πειραματιστήκαμε και με τους δύο κανόνες πραγμάτωσής της: τον κανόνα της πλειοψηφίας και τον κανόνα της σταθμισμένης ψηφοφορίας. Για την μελέτη της αποτελεσματικότητας των διάφορων μοντέλων μάθησης χρησιμοποιήσαμε κυρίως την μετρική της συνολικής ακρίβειας ή ορθότητας. Συμπεράναμε από την εργασία μας ότι ο ταξινομητής μας με βάση το λεξικό δίνει μέτρια αποτελέσματα κάτι που οφείλεται κυρίως στην απλότητα της ανάλυσής μας με την εξέταση λίγων γλωσσολογικών κανόνων. Ο αλγόριθμος Naive Bayes, παρά την απλότητά του, δίνει ικανοποιητικά αποτελέσματα ταξινόμησης κειμένου, εμφανώς ανώτερα από τον βασισμένο σε λεξικό ταξινομητή και σε πολλές περιπτώσεις ανώτερα από αυτά που πετυχαίνουν οι πολυπλοκότεροι αλγόριθμοι του ταξινομητή μέγιστης εντροπίας, των μηχανών διανυσμάτων υποστήριξης και των νευρωνικών δικτύων. Τα ΣΝΔ βέβαια πέτυχαν αρκετά καλύτερα αποτελέσματα από τον αλγόριθμο Naive Bayes, κατά ένα ποσοστό κοντά στο 10%, αλλά είχαν πολύ μεγαλύτερη πολυπλοκότητα υλοποίησης που αντιστοιχούσε σε πολύ μεγαλύτερο χρόνο εκπαίδευσης. Τέλος, ο συνδυασμός των επιμέρους ταξινομητών για την ενίσχυση της απόδοσης δεν βελτίωσε σημαντικά τα αποτελέσματα ταξινόμησης και αυτό οφείλεται στο ότι οι ταξινομητές έπαιρναν συσχετισμένες αποφάσεις κάνοντας παρόμοια λάθη. el
heal.abstract The development of the Internet, in recent years and the interchange of huge quantities of information among the users all over the word renders the study and analysis of algorithms which automatically deduce people’s sentiments, desires and beliefs based on text, necessary. This is what the field of sentiment analysis faces, and this field is being greatly developing due to the great interest of scientific and industrial community. In this thesis, we dealt with the problem of classifying movie reviews to positive or negative ones based on the polarity of opinion expressed. The dataset of movie reviews that we used is that one which was introduced by Pang and Lee and has been widely used since then. For facing the problem, we examined the use of a sentiment lexicon called SenticNet which is a sentiment lexicon of 30,000 english concepts, putting emphasis on the phenomena of negation and opposition. We also examined the use of supervised machine learning algorithms, such as Naive Bayes, Maximum Entropy, Support Vector Machines (SVMs) and Artificial Neural Networks but also of deep learning algorithms, such as Convolutional Neural Networks (CNN). Concerning Naive Bayes, we experimented with the use of both basic versions that are used in text classification, Multinomial Naive Bayes and Bernoulli Naive Bayes. Concerning SVMs, we experimented with the use of kernels and selected the linear and rbf gaussian kernels. When it comes to neural networks, we focused on 3-layer architectures and experimented with the number of hidden neurons. As features for the machine leaning algorithms (except CNNs which learn the features on their own, fact that’s their advantage) we basically used the Bag-of-Concepts representation of text and as concepts we used a subset of registrations of SenticNet. In the final step of our thesis, we tried to combine the individual classifiers so as to take advantage of knowledge combination. This combination is called ensemble learning and we experimented with both rules of its implementation: the rule of majority voting and the rule of weighted voting. For studying the effectiveness of the various models, we mainly used the metric of total accuracy or correctness. We concluded from our thesis that our lexicon-based classifier gives mediocre results mainly because of the simplicity of our analysis as we included few linguistic rules. The Naive Bayes algorithm, despite its simplicity, yields satisfying results in classifying text, obviously superior to those obtained from the lexicon-based classifier and in many cases superior to those obtained from more complicated algorithms, such as maximum entropy, support vector machines and neural networks. For sure, CNNs accomplished much better results than Naive Bayes, at a rate close to 10%, but they had a much more complicated implementation which corresponded to a much longer training time. Finally, the combination of individual classifiers to boost the performance didn’t improve significantly the classification results and this is due to the fact that the classifiers were taking associated decisions and making similar mistakes. en
heal.advisorName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 94 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα