HEAL DSpace

Εξόρυξη δεδομένων από το Twitter και εφαρμογή αλγορίθμων μη-επιβλεπόμενης μηχανικής μάθησης για συσταδοποίηση κειμένων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πανταζής, Όμηρος el
dc.contributor.author Pantazis, Omiros en
dc.date.accessioned 2016-06-08T07:47:14Z
dc.date.available 2016-06-08T07:47:14Z
dc.date.issued 2016-06-08
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/42654
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.10430
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Machine learning en
dc.subject Data mining en
dc.subject Twitter en
dc.subject Clustering en
dc.subject Python en
dc.subject Μηχανική μάθηση el
dc.subject Εξόρυξη δεδομένων el
dc.subject Συσταδοποίηση el
dc.subject Κοινωνικά δίκτυα el
dc.subject Βάσεις δεδομένων γράφου el
dc.title Εξόρυξη δεδομένων από το Twitter και εφαρμογή αλγορίθμων μη-επιβλεπόμενης μηχανικής μάθησης για συσταδοποίηση κειμένων el
dc.title Twitter data mining and application of unsupervised machine learning for text clustering en
heal.type bachelorThesis
heal.generalDescription Η διπλωματική εργασία εκπονήθηκε στο πλαίσιο της συνεργασίας της σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών με το Ερευνητικό Κέντρο "Αθηνά". el
heal.classification Machine learning en
heal.classification Data mining en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2016-04-01
heal.abstract Στη σημερινή εποχή, το ποσοστό των Χρηστών κοινωνικών δικτύων που εκμεταλλεύονται την ευκαιρία που τους δίνεται από αυτά να εκφράσουν την άποψη τους πάνω σε ένα συγκεκριμένο Θέμα αυξάνεται καθημερινά. Αντικείμενο μελέτης αυτής της διπλωματικής εργασίας είναι η συσχέτιση απόψεων διαφόρων Χρηστών πάνω σε Θέματα της επικαιρότητας. Τα Θέματα αυτά μπορεί να αναφέρονται σε πολιτική, οικονομικά, αθλητισμό, στα μέσα μαζικής ενημέρωσης κλπ. Το κοινωνικό δίκτυο ενδιαφέροντος για αυτή την έρευνα είναι το Twitter. Για την συλλογή των δεδομένων έγινε χρήση των δυνατοτήτων του προγραμματιστικού περιβάλλοντος Twitter API και για την αποθήκευση τους η Μη-Σχεσιακή βάση δεδομένων τύπου γράφου, Neo4j. Ακολούθως πετύχαμε αυτόματη Μοντελοποίηση των δεδομένων σε Θέματα με χρήση των αλγορίθμων μη-επιβλεπόμενης μηχανικής μάθησης, Latent Dirichlet Allocation (LDA) και K-Means. Για την επίτευξη του παραπάνω χρησιμοποιήσαμε Απλό Κείμενο, Επισημασμένα Ονόματα Χρηστών του Twitter και Hashtags. Τα αποτελέσματα της μελέτης μπορούν να ερμηνευτούν εύκολα μέσω της οπτικοποίησης τους σε διάγραμμα διασποράς. Το σύστημα έχει αναπτυχθεί κατά μεγάλο βαθμό με τη γλώσσα προγραμματισμουύ Python και τις ποικίλες βιβλιοθήκες που αυτή προσφέρει. Τέλος, η οπτικοποίηση των αποτελεσμάτων των παραπάνω αλγορίθμων καθώς και η δυνατότητα εφαρμογής τεχνικών ανάλυσης πάνω στα δεδομένα μας, προσφέρονται στο χρήστη μέσω Web Εφαρμογής που δημιουργήθηκε με το πλαίσιο Flask. el
heal.abstract Nowadays, an increasing percentage of social network Users take advantage of the opportunity they have been given to express their opinion on a specific Topic. Subject of this thesis is the opinion correlation from a variety of social network Users based on text data we have collected and are focused on conversations around specific trending Topics. These Topics can be referring to politics, economics, sports, media etc. The social network of interest of this study is Twitter. For the purpose of Data Mining and Data Storage we exploited the capabilities of Twitter API and Neo4j Non-Relational graph database respectively. Subsequently, we achieved automated Topic Modeling using Unsupervised Machine Learning algorithms Latent Dirichlet Allocation (LDA) and K-Means. To achieve the above mentioned goal we used pure Tweet text, Mentioned Twitter Usernames and Hashtags. The results of the research can be easily interpreted through their visualization in a scatter diagram. The visualization of the above mentioned results along with the capability to perform various techniques of data analysis are available to the User through a Web Application built on top of the Flask web framework. en
heal.advisorName Βασιλείου, Ιωάννης el
heal.committeeMemberName Βασιλείου, Ιωάννης el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 123 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα