dc.contributor.advisor |
Κοζύρης, Νεκτάριος |
el |
dc.contributor.author |
Ιωάννου, Ιωάννης Ι.
|
el |
dc.contributor.author |
Ioannou, Ioannis I.
|
en |
dc.date.accessioned |
2014-11-10T11:50:17Z |
|
dc.date.available |
2014-11-10T11:50:17Z |
|
dc.date.copyright |
2014-07-08 |
- |
dc.date.issued |
2014-11-10 |
|
dc.date.submitted |
2014-07-08 |
- |
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/39568 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.6192 |
|
dc.description |
82 σ. |
el |
dc.description.abstract |
Αντικείμενο της συγκεκριμένης διπλωματικής εργασίας είναι η ανάλυση συναισθήματος σε μεγάλο όγκο δεδομένων κειμένου με τη χρήση κατανεμημένων τεχνικών μηχανικής εκμάθησης. Για το σκοπό αυτό μελετάται το Hadoop, το οποίο αποτελεί το πλέον διαδεδομένο framework για κατανεμημένη επεξεργασία και το Mahout, το οποίο προσφέρει μια βιβλιοθήκη για αλγόριθμους μηχανικής εκμάθησης πάνω από το Hadoop. Στη συνέχεια μελετούνται οι κατανεμημένοι αλγόριθμοι που προσφέρονται από το Mahout, ο Naive Bayes και ο Random Forests, και επιλέγεται ο καταλληλότερος γι’ αυτήν την εργασία. Κατόπιν, γνωρίζοντας πως η ακρίβεια εξαγωγής του συναισθήματος διαδραματίζει καθοριστικό παράγοντα σε μια εφαρμογή, μελετούνται πολλές διαδεδομένες μέθοδοι βελτίωσης της ακρίβειας. Ακολούθως, γίνεται παρουσίαση της εφαρμογή εξαγωγής συναισθήματος που μελετάται στην εργασία αυτήν, καθώς επίσης και εφαρμογή του επιλεγμένου αλγορίθμου και των διαφορετικών μεθόδων βελτίωσης της ακρίβειας, με σκοπό την επίτευξη της καλύτερης δυνατής ακρίβειας ταξινόμησης και την εξαγωγή συμπερασμάτων. Έπειτα, εξηγείται η απαίτηση των σύγχρονων εφαρμογών για χρήση μεγάλου όγκου δεδομένων και πως αυτή καθιστά υποχρεωτική τη χρήση κατανεμημένων αλγορίθμων. Στη συνέχεια, θέλοντας να επιβεβαιώσουμε τη χρησιμότητα των κατανεμημένων αλγορίθμων ταξινόμησης, γίνεται αξιολόγηση της χρήσης τους όταν υπάρχει μεγάλος όγκος δεδομένων. Τέλος, μελετάται η επίδραση του αριθμού των εκπαιδευτικών εγγράφων (από μερικές εκατοντάδες, μέχρι μερικά εκατομμύρια) στην ακρίβεια της εφαρμογής που μελετήθηκε, με σκοπό την περαιτέρω βελτίωση της ακρίβειας ταξινόμησης. |
el |
dc.description.abstract |
The scope of this particular thesis is the sentiment analysis within big data, using distributed techniques of machine learning. For this purpose, Hadoop is studied, which is the most widespread framework for distributed processing, as well as Mahout, which offers a library for algorithms of machine learning. The distributed algorithms offered by Mahout – Naive Bayes and Random Forests – are also studied, and the one most suitable for this project is chosen. Afterwards, knowing that the accuracy in sentiment analysis applications is a determining factor, various widespread methods of accuracy improvement are studied. The sentiment analysis application that this thesis studies is then presented, and the chosen algorithm and various methods of accuracy improvement are applied, in order to achieve the best possible accuracy in classification and to reach conclusions. I go on to explain the demands of contemporary applications for big data use and how this renders the use of distributed algorithms necessary. Wishing to confirm the usefulness of distributed algorithms for classification, their use when there is big data is evaluated. Finally, the effect that the number of training documents (from hundreds to millions) has on the accuracy of the studied application is analyzed, so that accuracy in classification is further improved. |
en |
dc.description.statementofresponsibility |
Ιωάννης Ι. Ιωάννου |
el |
dc.language.iso |
el |
en |
dc.rights |
ETDFree-policy.xml |
en |
dc.subject |
Mahout |
el |
dc.subject |
Ανάλυση συναισθήματος |
el |
dc.subject |
Μεγάλος όγκος δεδομένων |
el |
dc.subject |
Hadoop |
el |
dc.subject |
Κατανεμημένοι ταξινομητές |
el |
dc.subject |
Naive bayes |
el |
dc.subject |
Προεπεξεργασία δεδομένων |
el |
dc.subject |
Βελτίωση ακρίβειας |
el |
dc.subject |
Βελτιστοποιήσεις |
el |
dc.subject |
Κλιμακωσιμότητα |
el |
dc.subject |
Sentiment analysis |
en |
dc.subject |
Big data |
en |
dc.subject |
Distributed classifiers |
en |
dc.subject |
Data pre-processing |
en |
dc.subject |
Accuracy improvement |
en |
dc.subject |
Optimizations |
en |
dc.subject |
Scalability |
en |
dc.title |
Ανάλυση συναισθήματος σε μεγάλο όγκο δεδομένων κειμένου με χρήση κατανεμημένων τεχνικών μηχανικής εκμάθησης |
el |
dc.title.alternative |
Analysis of emotion in a large volume of text data using distributed machine learning techniques |
en |
dc.type |
bachelorThesis |
el (en) |
dc.date.accepted |
2014-07-03 |
- |
dc.date.modified |
2014-07-08 |
- |
dc.contributor.advisorcommitteemember |
Κοζύρης, Νεκτάριος |
el |
dc.contributor.advisorcommitteemember |
Τσανάκας, Παναγιώτης |
el |
dc.contributor.advisorcommitteemember |
Τσουμάκος, Δημήτριος |
el |
dc.contributor.committeemember |
Τσανάκας, Παναγιώτης |
el |
dc.contributor.committeemember |
Τσουμάκος, Δημήτριος |
el |
dc.contributor.department |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων |
el |
dc.date.recordmanipulation.recordcreated |
2014-11-10 |
- |
dc.date.recordmanipulation.recordmodified |
2014-11-10 |
- |