HEAL DSpace

Εφαρμογή Μηχανικής Μάθησης στην Ανάλυση Άποψης Κειμένων στον Θεματικό Τομέα των Τουριστικών Επιχειρήσεων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Γκιόκας, Οδυσσέας el
dc.contributor.author Γκιόκας, Κωνσταντίνος el
dc.date.accessioned 2015-03-24T08:48:36Z
dc.date.available 2015-03-24T08:48:36Z
dc.date.issued 2015-03-24
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/40486
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.8052
dc.rights Default License
dc.subject Μηχανική Μάθηση el
dc.subject Machine Learning en
dc.subject Ανάλυση Άποψης el
dc.subject Κρυφό Μοντέλο Markov el
dc.subject Sentiment Analysis en
dc.subject Aspect Based Sentiment Analysis en
dc.subject Naive Bayes en
dc.subject Hidden Markov Model en
dc.subject Κατηγοριοποίηση βασισμένη στην Άποψη el
dc.subject Ανάλυση Άποψης βασισμένη σε χαρακτηριστικά el
dc.title Εφαρμογή Μηχανικής Μάθησης στην Ανάλυση Άποψης Κειμένων στον Θεματικό Τομέα των Τουριστικών Επιχειρήσεων el
dc.accessRights Gkiokas, Odysseas en
dc.accessRights Gkiokas, Konstantinos en
heal.type bachelorThesis
heal.classification Machine learning el
heal.classificationURI http://id.loc.gov/authorities/subjects/sh85079324
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2015-03-06
heal.abstract Η παρούσα διπλωματική πραγματεύεται το πρόβλημα του Sentiment Analysis δηλαδή την αυτόματη κατηγοριοποίηση ενός κειμένου ως θετικό ή αρνητικό με γνώμονα την άποψη του συγγραφέα πάνω στο θέμα του κειμένου και ιδιαίτερα σε κείμενα που αφορούν κριτικές ξενοδοχείων. Αφού οριστεί το θεωρητικό υπόβαθρο του προβλήματος, επιλέγονται τρεις μέθοδοι (αλγόριθμοι) για να εκπαιδευτεί ένα σύστημα σε αυτήν την αυτόματη κατηγοριοποίηση. Συγκεκριμένα επιλέγονται ο αλγόριθμος Naive Bayes, μία τροποποίηση του Hidden Markov Model που ονομάζεται Lexicalised Hidden Markov Model Integrating Part-of-Speech και Νευρωνικά Δίκτυα. Στον αλγόριθμο Naive Bayes δοκιμάσαμε μερικές παραλλαγές του, με διαφοροποιήσεις κάθε φορά στο ποιες λέξεις συμπεριλαμβάνονται αναφορικά με την συχνότητα τους και το μήκος τους, αν χρησιμοποιούνταν σκέτες λέξεις ή και n-grams και το πως γινόταν ο χωρισμός των λέξεων μεταξύ τους. Στην τροποποίηση του Hidden Markov Model επιλέχθηκε ένα σύνολο από χαρακτηριστικά (tags) και εφαρμόστηκε ένα πιο ειδικό πεδίο του Sentiment Analysis, το Aspect Based Sentiment Analysis. Στα Νευρωνικά Δίκτυα εφαρμόστηκαν υλοποιήσεις για one-layer και three-layer perceptrons και έγιναν πειράματα με διαφορετικές τιμές στις παραμέτρους του μοντέλου ώστε να επιτευχθούν τα καλύτερα αποτελέσματα. Για να δοκιμαστούν αυτοί οι αλγόριθμοι χρησιμοποιήθηκαν κυρίως κριτικές ξενοδοχείων οι οποίες αντλήθηκαν από το booking.com και παρατίθενται για αναφορά, αλλά και το ευρέως χρησιμοποιούμενο στο Sentiment Analysis σύνολο δεδομένων από κριτικές ταινιών του imdb.com των Pang και Lee. Ως συμπέρασμα καταλήξαμε ότι για να επιτευχθεί μία πολύ ικανοποιητική απόδοση και ακρίβεια από το μοντέλο σε κριτικές ξενοδοχείων είναι αρκετός ένας απλός αλγόριθμος όπως ο Naive Bayes με την ακρίβεια προβλέψεων να φτάνει μέχρι και 94.5%. Αν απαιτείται ανάλυση υποχαρακτηριστικών του κειμένου τότε μπορεί να χρησιμοποιηθεί το Hidden Markov Model αλλά με χαμηλότερη ακρίβεια προβλέψεων. Τα Νευρωνικά Δίκτυα δείχνουν να μην ξεπερνούν σε ακρίβεια τον αλγόριθμο Naive Bayes παρά τη δυσκολία χρήσης τους. el
heal.abstract In this dissertation we consider the problem of Sentiment Analysis, which refers to automatically classifying documents as positive or negative with regards to the writer’s opinion on the central subject of the document and especially we consider the application of the problem in hotel reviews. After the theoretical background is specified, three distinct methods (algorithms) are chosen to train a system to perform such an automatic classification. Specifically, the chosen algorithms are Naive Bayes, a variation of a Hidden Markov Model called Lexicalised Hidden Markov Model Integrating Part-of-Speech and Neural Networks. Considering Naive Bayes, we tried different versions of the algorithm, differentiating by which words are allowed with regards to their frequency and length, by whether single words were used or n-grams were included and the way the words were actually split. In the variation of Hidden Markov Model, we chose a set of features (tags) and we considered the more specific field of Sentiment Analysis called Aspect Based Sentiment Analysis. In Neural Networks we structured both one layer and three layer perceptrons and experiments were conducted whilst tweaking the parameters of the system to achieve the best possible results. In order to test those algorithms we used mainly hotel reviews that were scraped of booking.com website and are available for reference, but additionally we used the dataset that is the most popular in Sentiment Analysis, the dataset of movie reviews from imdb.com website by Pang and Lee. In the end, we concluded that in order to achieve a good performance and precision, a simple algorithm like Naive Bayes is sufficient with precision percentages reaching the number of 94.5%. If an aspect based analysis on the text is required then a Hidden Markov Model is advised though the precision will be lower. Neural Networks seem to not exceed Naive Bayes' performance, even though they are harder to use. en
heal.advisorName Κόλλιας, Στέφανος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 92 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής