HEAL DSpace

Ανάλυση συναισθήματος σε μεγάλο όγκο δεδομένων κειμένου με χρήση κατανεμημένων τεχνικών μηχανικής εκμάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κοζύρης, Νεκτάριος el
dc.contributor.author Ιωάννου, Ιωάννης Ι. el
dc.contributor.author Ioannou, Ioannis I. en
dc.date.accessioned 2014-11-10T11:50:17Z
dc.date.available 2014-11-10T11:50:17Z
dc.date.copyright 2014-07-08 -
dc.date.issued 2014-11-10
dc.date.submitted 2014-07-08 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/39568
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.6192
dc.description 82 σ. el
dc.description.abstract Αντικείμενο της συγκεκριμένης διπλωματικής εργασίας είναι η ανάλυση συναισθήματος σε μεγάλο όγκο δεδομένων κειμένου με τη χρήση κατανεμημένων τεχνικών μηχανικής εκμάθησης. Για το σκοπό αυτό μελετάται το Hadoop, το οποίο αποτελεί το πλέον διαδεδομένο framework για κατανεμημένη επεξεργασία και το Mahout, το οποίο προσφέρει μια βιβλιοθήκη για αλγόριθμους μηχανικής εκμάθησης πάνω από το Hadoop. Στη συνέχεια μελετούνται οι κατανεμημένοι αλγόριθμοι που προσφέρονται από το Mahout, ο Naive Bayes και ο Random Forests, και επιλέγεται ο καταλληλότερος γι’ αυτήν την εργασία. Κατόπιν, γνωρίζοντας πως η ακρίβεια εξαγωγής του συναισθήματος διαδραματίζει καθοριστικό παράγοντα σε μια εφαρμογή, μελετούνται πολλές διαδεδομένες μέθοδοι βελτίωσης της ακρίβειας. Ακολούθως, γίνεται παρουσίαση της εφαρμογή εξαγωγής συναισθήματος που μελετάται στην εργασία αυτήν, καθώς επίσης και εφαρμογή του επιλεγμένου αλγορίθμου και των διαφορετικών μεθόδων βελτίωσης της ακρίβειας, με σκοπό την επίτευξη της καλύτερης δυνατής ακρίβειας ταξινόμησης και την εξαγωγή συμπερασμάτων. Έπειτα, εξηγείται η απαίτηση των σύγχρονων εφαρμογών για χρήση μεγάλου όγκου δεδομένων και πως αυτή καθιστά υποχρεωτική τη χρήση κατανεμημένων αλγορίθμων. Στη συνέχεια, θέλοντας να επιβεβαιώσουμε τη χρησιμότητα των κατανεμημένων αλγορίθμων ταξινόμησης, γίνεται αξιολόγηση της χρήσης τους όταν υπάρχει μεγάλος όγκος δεδομένων. Τέλος, μελετάται η επίδραση του αριθμού των εκπαιδευτικών εγγράφων (από μερικές εκατοντάδες, μέχρι μερικά εκατομμύρια) στην ακρίβεια της εφαρμογής που μελετήθηκε, με σκοπό την περαιτέρω βελτίωση της ακρίβειας ταξινόμησης. el
dc.description.abstract The scope of this particular thesis is the sentiment analysis within big data, using distributed techniques of machine learning. For this purpose, Hadoop is studied, which is the most widespread framework for distributed processing, as well as Mahout, which offers a library for algorithms of machine learning. The distributed algorithms offered by Mahout – Naive Bayes and Random Forests – are also studied, and the one most suitable for this project is chosen. Afterwards, knowing that the accuracy in sentiment analysis applications is a determining factor, various widespread methods of accuracy improvement are studied. The sentiment analysis application that this thesis studies is then presented, and the chosen algorithm and various methods of accuracy improvement are applied, in order to achieve the best possible accuracy in classification and to reach conclusions. I go on to explain the demands of contemporary applications for big data use and how this renders the use of distributed algorithms necessary. Wishing to confirm the usefulness of distributed algorithms for classification, their use when there is big data is evaluated. Finally, the effect that the number of training documents (from hundreds to millions) has on the accuracy of the studied application is analyzed, so that accuracy in classification is further improved. en
dc.description.statementofresponsibility Ιωάννης Ι. Ιωάννου el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Mahout el
dc.subject Ανάλυση συναισθήματος el
dc.subject Μεγάλος όγκος δεδομένων el
dc.subject Hadoop el
dc.subject Κατανεμημένοι ταξινομητές el
dc.subject Naive bayes el
dc.subject Προεπεξεργασία δεδομένων el
dc.subject Βελτίωση ακρίβειας el
dc.subject Βελτιστοποιήσεις el
dc.subject Κλιμακωσιμότητα el
dc.subject Sentiment analysis en
dc.subject Big data en
dc.subject Distributed classifiers en
dc.subject Data pre-processing en
dc.subject Accuracy improvement en
dc.subject Optimizations en
dc.subject Scalability en
dc.title Ανάλυση συναισθήματος σε μεγάλο όγκο δεδομένων κειμένου με χρήση κατανεμημένων τεχνικών μηχανικής εκμάθησης el
dc.title.alternative Analysis of emotion in a large volume of text data using distributed machine learning techniques en
dc.type bachelorThesis el (en)
dc.date.accepted 2014-07-03 -
dc.date.modified 2014-07-08 -
dc.contributor.advisorcommitteemember Κοζύρης, Νεκτάριος el
dc.contributor.advisorcommitteemember Τσανάκας, Παναγιώτης el
dc.contributor.advisorcommitteemember Τσουμάκος, Δημήτριος el
dc.contributor.committeemember Τσανάκας, Παναγιώτης el
dc.contributor.committeemember Τσουμάκος, Δημήτριος el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
dc.date.recordmanipulation.recordcreated 2014-11-10 -
dc.date.recordmanipulation.recordmodified 2014-11-10 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής