dc.contributor.author | Καρανικόλα, Ελένη | el |
dc.contributor.author | Karanikola, Eleni | en |
dc.date.accessioned | 2021-05-19T10:13:35Z | |
dc.date.available | 2021-05-19T10:13:35Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/53454 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.21152 | |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Web Crawling | en |
dc.subject | Big Data | en |
dc.subject | Web Development | en |
dc.subject | Naive Bayes | en |
dc.subject | Smart Websites | en |
dc.subject | Classification | en |
dc.subject | Flask | en |
dc.title | Χρήση Crawlers για την εξαγωγή δεδομένων από το διαδίκτυο | el |
heal.type | bachelorThesis | |
heal.classification | Web Crawling | en |
heal.classification | Data analysis | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2021-03-18 | |
heal.abstract | Σκοπός της παρούσας διπλωματικής εργασίας είναι η κατασκευή μιας έξυπνης “πλατφόρμας” ειδησεογραφικού περιεχομένου και η διευκόλυνση της πρόσβασης του ανθρώπου σε ένα ευρύ φάσμα ειδήσεων και χρήσιμων περαιτέρω αναλύσεων. Πρώτο στάδιο για την δημιουργία της πλατφόρμας αποτέλεσε η συλλογή των δεδομένων. Για τον λόγο αυτό επιλέχθηκαν 20 διαφορετικές ελληνικές ιστοσελίδες με ποικιλία ως προς το περιεχόμενο, την ιδεολογία και τα ενδιαφέροντα. Στην συνέχεια κατασκευάστηκαν 10 “αράχνες” και χρησιμοποιήθηκαν για την αυτοματοποιημένη συλλογή δεδομένων. Συνολικά συγκεντρώθηκαν 35.000 άρθρα από 10 κατηγορίες.Τα άρθρα αυτά στην συνέχεια χρησιμοποιήθηκαν για την ανάλυση δεδομένων. Οι τρεις βασικοί άξονες της ανάλυσης των άρθρων ήταν ως προς το περιεχόμενο, την ποιότητα και τους συγγραφείς. Σημαντικό κομμάτι της ανάλυσης αποτελεί και η κατασκευή του κατηγοριοποιητή άρθρων. Για την κατασκευή του κατηγοριοποιητή χρησιμοποιήθηκε ο αλγόριθμος Naive Bayes, με ποσοστό επιτυχίας 68%. Επιπλέον κατασκευάστηκε ένα σύστημα προτάσεων όμοιων άρθρων βάση της ομοιότητας των λέξεων. Για κάθε άρθρο προτείνεται στην ιστοσελίδα τα 3 ομοιότερα ως προς αυτό άρθρα για ανάγνωση. Στόχος της παραπάνω ανάλυσης είναι ο αναγνώστης να αποκτήσει μία ευρύτερη και οξύτερη κατανόηση πάνω σε όσα διαβάζει. Παράλληλα δίνεται η δυνατότητα πλοήγησης σε έναν ιστότοπο με πολύπλευρα ενδιαφέροντα και επιρροές, αποκλειστικά ειδησεογραφικού περιεχομένου, μετατρέποντας την εμπειρία ενημέρωση, στοχευμένη και γρήγορη. | el |
heal.advisorName | Ασκούνης, Δημήτριος | el |
heal.committeeMemberName | Ψαράς, Ιωάννης | el |
heal.committeeMemberName | Ασκούνης, Δημήτριος | el |
heal.committeeMemberName | Δούκας, Χρυσόστομος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρικών Βιομηχανικών Διατάξεων και Συστημάτων Αποφάσεων | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 80 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: