Autonomous vehicles: Multi-class twitter sentiment analysis

Τριβυζά, Μαρία-Φιλίππα; Trivyza, Maria-Filippa

dc.contributor.author	Τριβυζά, Μαρία-Φιλίππα	el
dc.contributor.author	Trivyza, Maria-Filippa	en
dc.date.accessioned	2021-11-02T11:23:13Z
dc.date.available	2021-11-02T11:23:13Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/54013
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.21711
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/gr/	*
dc.subject	Twitter sentiment analysis	en
dc.subject	Autonomous vehicles	en
dc.subject	Multi-class classification	en
dc.subject	Transfer learning	en
dc.subject	Attention mechanisms	en
dc.subject	Twitter ανάλυση συναισθήματος	el
dc.subject	Αυτόνομα οχήματα	el
dc.subject	Ταξινόμηση πολλαπλών κλάσεων	el
dc.subject	Μεταφορά μάθησης	el
dc.subject	Μηχανισμοί προσοχής	el
dc.title	Autonomous vehicles: Multi-class twitter sentiment analysis	en
heal.type	masterThesis
heal.classification	Machine learning	en
heal.classification	Deep learning	en
heal.classification	Natural language processing	en
heal.classification	Μηχανική μάθηση	el
heal.classification	Βαθιά μάθηση	el
heal.classification	Επεξεργασία φυσικής γλώσσας	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2021-05-18
heal.abstract	Sentiment analysis (or opinion mining) refers to the use of natural language processing (NLP) and machine learning (ML) to interpret and classify opinions in a piece of human-written text. Sentiment analysis in social media data such as Twitter messages (tweets) present an important topic of research and can refer to the automatic identification of opinions of consumers towards an event, organization, product, brand or person by analyzing their posts. Most studies related to sentiment analysis focus on the binary and ternary classification of these opinions, even though the task of multi-class classification has always been the most interesting, yet most challenging. This thesis researches the task of multi-class Twitter sentiment analysis and aims to explore the views of the general public towards self-driving cars or autonomous vehicles (AVs). We used an imbalanced annotated Twitter data set with captured self-driving car-related tweets, and a data set containing movie reviews used for fine-grained classification. We implemented and experimented with various deep learning models, namely a 2-layer bi-directional long short-term memory (BLSTM) network with self-attention (2-BLSTM+Att), and various state-of-the-art (SOTA) bi-directional encoder representations from transformers (BERT) models. Also, we used a weighted loss function in order to tackle the problem of class imbalance. We evaluated our models using the accuracy and F1 score metrics. To find people’s opinion regarding the controversial technology of AVs, self-driving car-related tweets were captured using the Twitter API and classified in a five-scale sentiment polarity from highly negative, negative, neutral, positive to highly positive.	en
heal.abstract	Η ανάλυση συναισθήματος (ή η εξόρυξη γνώμης) αναφέρεται στη χρήση της επεξεργασίας φυσικής γλώσσας (NLP) και της μηχανικής μάθησης (ML) για την ερμηνεία και την ταξινόμηση των συναισθημάτων σε ένα κομμάτι κειμένου γραμμένο από άνθρωπο. Η ανάλυση συναισθήματος σε δεδομένα κοινωνικών μέσων όπως τα Twitter μηνύματα (tweets) παρουσιάζει ένα σημαντικό θέμα έρευνας και αναφέρεται στον αυτόματο προσδιορισμό των απόψεων των καταναλωτών για ένα συμβάν, οργανισμό, προϊόν, επωνυμία ή άτομο αναλύοντας τις δημοσιεύσεις τους. Οι περισσότερες μελέτες που σχετίζονται με την ανάλυση συναισθήματος επικεντρώνονται στη δυαδική και τριμερή ταξινόμηση αυτών των απόψεων, παρόλο που η ταξινόμηση πολλαπλών τάξεων ήταν πάντα η πιο ενδιαφέρουσα, αλλά και η πιο δύσκολη. Αυτή η διατριβή ερευνά την ανάλυση συναισθήματος πολλαπλών κλάσεων από tweets και στοχεύει στη διερεύνηση των απόψεων του κοινού σχετικά με τα αυτοκινούμενα αυτοκίνητα ή τα αυτόνομα οχήματα (AVs). Χρησιμοποιήσαμε ένα μη-ισορροπημένο σχολιασμένο σύνολο δεδομένων από συλλεγμένα tweets που σχετίζονται με τα αυτοκινούμενα αυτοκίνητα και ένα σύνολο δεδομένων που περιέχει κριτικές ταινιών, το οποίο χρησιμοποιείται για ταξινόμηση πολλαπλών κλάσεων. Υλοποιήσαμε και πειραματιστήκαμε με διάφορα μοντέλα βαθιάς μάθησης, όπως ένα δίκτυο δύο στρωμάτων αμφίδρομης μακροπρόθεσμης μνήμης (BLSTM) με αυτο-προσοχή (2-BLSTM+Att) και διάφορα υπερσύγχρονα (SOTA) μοντέλα αμφίδρομων αναπαραστάσεων κωδικοποιητών από τους μετασχηματιστές (BERT). Επίσης, χρησιμοποιήσαμε μια σταθμισμένη συνάρτηση απώλειας για να αντιμετωπίσουμε το πρόβλημα των μη-ισορροπημένων δεδομένων. Για να βρεθεί η γνώμη των ανθρώπων σχετικά με την αμφιλεγόμενη τεχνολογία των AVs, συλλέχθηκαν tweets που σχετίζονται με τα αυτοκινούμενα αυτοκίνητα χρησιμοποιώντας το API του Twitter και ταξινομήθηκαν σε πολικότητα συναισθήματος πέντε κλάσεων από εξαιρετικά αρνητικό, αρνητικό, ουδέτερο, θετικό σε πολύ θετικό.	el
heal.advisorName	Matsopoulos, George	en
heal.advisorName	Ματσόπουλος, Γεώργιος	el
heal.committeeMemberName	Πρωτονοτάριος, Εμμανουήλ	el
heal.committeeMemberName	Νικόλαος, Δουλάμης	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	104 σ.	el
heal.fullTextAvailability	false