HEAL DSpace

Ανίχνευση ψευδών ειδήσεων σε ελληνικό κείμενο για την περίπτωση του COVID-19 με τη χρήση της γλώσσας προγραμματισμού Python

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Πατούχα, Ελένη el
dc.contributor.author Patoucha, Eleni en
dc.date.accessioned 2022-02-10T09:23:22Z
dc.date.available 2022-02-10T09:23:22Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54647
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22345
dc.rights Default License
dc.subject Ανάλυση δεδομένων el
dc.subject Κορονοϊός el
dc.subject Πανδημία el
dc.subject Εξόρυξη δεδομένων el
dc.subject Ψευδείς ειδήσεις el
dc.subject Εξόρυξη κειμένου el
dc.title Ανίχνευση ψευδών ειδήσεων σε ελληνικό κείμενο για την περίπτωση του COVID-19 με τη χρήση της γλώσσας προγραμματισμού Python el
heal.type bachelorThesis
heal.classification Μαθηματικά el
heal.classification Ανάλυση δεδομένων el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-02-10
heal.abstract Η πανδημία COVID-19 είναι μια τρέχουσα πανδημία με τεράστιες επιπτώσεις στην υγεία του παγκόσμιου πληθυσμού. Ταυτόχρονα το φαινόμενο των ψευδών ειδήσεων που σχετίζονται με τον COVID- 19 έχει χαρακτηριστεί σαν μια άλλη μόλυνση, μια επιδημία παραπληροφόρησης και έχει χαρακτηριστεί ως «infodemic». Η εξάπλωση των ψευδών ειδήσεων που αφορούν τον COVID-19 αποτελεί ένα πολύ σοβαρό φαινόμενο με μεγάλες επιπτώσεις στην υγεία. Σκοπός της εργασίας είναι να συμβάλει στην αυτοματοποίηση της ανίχνευσης των ψευδών ειδήσεων που αφορούν τον COVID-19 σε ελληνικά κείμενα αναλύοντας την αποτελεσματικότητα διαφορετικών μοντέλων επιβλεπόμενης μηχανικής μάθησης με τη χρήση της γλώσσας προγραμματισμού Python. Για την ανάγκη υλοποίησης της εργασίας συλλέχθηκαν άρθρα από έγκυρη ειδησεογραφική πηγή και άρθρα από πηγές που έχουν χαρακτηριστεί ως πιθανώς αναξιόπιστες από το Greek Hoaxes Detector [1]. Στα άρθρα τα οποία συλλέχθηκαν τοποθετήθηκαν ετικέτες 0 ή 1 ανάλογα με τον αν προέρχονται από αξιόπιστη πηγή ή αν προέρχονται από πηγή που έχει χαρακτηριστεί ως πιθανώς αναξιόπιστη. Το σύνολο δεδομένων που δημιουργήθηκε περιέχει 4715 άρθρα που αφορούν τον COVID-19, εκ των οποίων τα 2664 έχουν ετικέτα με την τιμή 0 και 2051 έχουν ετικέτα με την τιμή 1. Πραγματοποιήθηκε καθαρισμός του συνόλου δεδομένων και στη συνέχεια υλοποιήθηκε διερευνητική ανάλυση και ανάλυση συναισθήματος με χρήση τεχνικών Εξόρυξης Γνώσης από Κείμενα για την εύρεση ενός κατάλληλου χαρακτηριστικού για την εκπαίδευση των μοντέλων μηχανικής μάθησης. Μετά από την ανάλυση των δεδομένων καταλήξαμε στη συχνότητα εμφάνισης των λέξεων στο κείμενο των άρθρων και στη μέθοδο TF-IDF. Αναλύθηκε συνδυαστικά η απόδοση των ταξινομητών Binomial Logistic Regression, Naive Bayes Classifier, Support Vector Classifier και Random Forest με βάση μια σειρά από μετρικές και καταλήξαμε στο συμπέρασμα ότι ο Random Forest έχει την καλύτερη απόδοση. el
heal.advisorName Στεφανέας, Πέτρος el
heal.committeeMemberName Κολέτσος, Ιωάννης el
heal.committeeMemberName Στεφανέας, Πέτρος el
heal.committeeMemberName Ψαρράκος, Παναγιώτης el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μαθηματικών el
heal.academicPublisherID ntua
heal.numberOfPages 101 δ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής