dc.contributor.author |
Πατούχα, Ελένη
|
el |
dc.contributor.author |
Patoucha, Eleni
|
en |
dc.date.accessioned |
2022-02-10T09:23:22Z |
|
dc.date.available |
2022-02-10T09:23:22Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/54647 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.22345 |
|
dc.rights |
Default License |
|
dc.subject |
Ανάλυση δεδομένων |
el |
dc.subject |
Κορονοϊός |
el |
dc.subject |
Πανδημία |
el |
dc.subject |
Εξόρυξη δεδομένων |
el |
dc.subject |
Ψευδείς ειδήσεις |
el |
dc.subject |
Εξόρυξη κειμένου |
el |
dc.title |
Ανίχνευση ψευδών ειδήσεων σε ελληνικό κείμενο για την περίπτωση του COVID-19 με τη χρήση της γλώσσας προγραμματισμού Python |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Μαθηματικά |
el |
heal.classification |
Ανάλυση δεδομένων |
el |
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2021-02-10 |
|
heal.abstract |
Η πανδημία COVID-19 είναι μια τρέχουσα πανδημία με τεράστιες επιπτώσεις στην υγεία του παγκόσμιου πληθυσμού. Ταυτόχρονα το φαινόμενο των ψευδών ειδήσεων που σχετίζονται με τον COVID- 19 έχει χαρακτηριστεί σαν μια άλλη μόλυνση, μια επιδημία παραπληροφόρησης και έχει χαρακτηριστεί ως «infodemic». Η εξάπλωση των ψευδών ειδήσεων που αφορούν τον COVID-19 αποτελεί ένα πολύ σοβαρό φαινόμενο με μεγάλες επιπτώσεις στην υγεία.
Σκοπός της εργασίας είναι να συμβάλει στην αυτοματοποίηση της ανίχνευσης των ψευδών ειδήσεων που αφορούν τον COVID-19 σε ελληνικά κείμενα αναλύοντας την αποτελεσματικότητα διαφορετικών μοντέλων επιβλεπόμενης μηχανικής μάθησης με τη χρήση της γλώσσας προγραμματισμού Python.
Για την ανάγκη υλοποίησης της εργασίας συλλέχθηκαν άρθρα από έγκυρη ειδησεογραφική πηγή και άρθρα από πηγές που έχουν χαρακτηριστεί ως πιθανώς αναξιόπιστες από το Greek Hoaxes Detector [1]. Στα άρθρα τα οποία συλλέχθηκαν τοποθετήθηκαν ετικέτες 0 ή 1 ανάλογα με τον αν προέρχονται από αξιόπιστη πηγή ή αν προέρχονται από πηγή που έχει χαρακτηριστεί ως πιθανώς αναξιόπιστη. Το σύνολο δεδομένων που δημιουργήθηκε περιέχει 4715 άρθρα που αφορούν τον COVID-19, εκ των οποίων τα 2664 έχουν ετικέτα με την τιμή 0 και 2051 έχουν ετικέτα με την τιμή 1.
Πραγματοποιήθηκε καθαρισμός του συνόλου δεδομένων και στη συνέχεια υλοποιήθηκε διερευνητική ανάλυση και ανάλυση συναισθήματος με χρήση τεχνικών Εξόρυξης Γνώσης από Κείμενα για την εύρεση ενός κατάλληλου χαρακτηριστικού για την εκπαίδευση των μοντέλων μηχανικής μάθησης. Μετά από την ανάλυση των δεδομένων καταλήξαμε στη συχνότητα εμφάνισης των λέξεων στο κείμενο των άρθρων και στη μέθοδο TF-IDF.
Αναλύθηκε συνδυαστικά η απόδοση των ταξινομητών Binomial Logistic Regression, Naive Bayes Classifier, Support Vector Classifier και Random Forest με βάση μια σειρά από μετρικές και καταλήξαμε στο συμπέρασμα ότι ο Random Forest έχει την καλύτερη απόδοση. |
el |
heal.advisorName |
Στεφανέας, Πέτρος |
el |
heal.committeeMemberName |
Κολέτσος, Ιωάννης |
el |
heal.committeeMemberName |
Στεφανέας, Πέτρος |
el |
heal.committeeMemberName |
Ψαρράκος, Παναγιώτης |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
101 δ. |
el |
heal.fullTextAvailability |
false |
|