HEAL DSpace

Δημιουργία συνόλου δεδομένων άρθρων και ταξινόμηση κειμένου για διαφημιστικούς σκοπούς

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κωστοπούλου, Φωτεινή Μαρία el
dc.contributor.author Kostopoulou, Foteini Maria en
dc.date.accessioned 2020-10-26T15:19:43Z
dc.date.available 2020-10-26T15:19:43Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/51635
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.19333
dc.rights Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nd/3.0/gr/ *
dc.subject Επεξεργασία κειμένου el
dc.subject Νευρωνικά δίκτυα el
dc.subject Επεξεργασία φυσικής γλώσσας el
dc.subject Πίνακας σύγχυσης el
dc.subject Ταξινόμηση κειμένου el
dc.subject Doc2Vec en
dc.subject Word2Vec en
dc.subject Natural Language Processing en
dc.subject Multi-class text classification en
dc.subject Text preprocessing en
dc.title Δημιουργία συνόλου δεδομένων άρθρων και ταξινόμηση κειμένου για διαφημιστικούς σκοπούς el
dc.title Blog Dataset creation and multi-class Text Classification for Advertisement purposes en
heal.type bachelorThesis
heal.classification Επεξεργασία φυσικής γλώσσας el
heal.classification Μηχανική μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2020-10-08
heal.abstract Το αντικείμενο της παρούσας διπλωματικής εργασίας σχετίζεται με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας προσανατολισμένο στις εφαρμογές της διαδικτυακής διαφήμισης. Αναλυτικότερα η επεξεργασία κειμένου είναι αναγκαίο εργαλείο για την αυτόματη προσθήκη διαφημίσεων σε δωρεάν ιστοσελίδες του παγκόσμιου ιστού, οι οποίες διαφημίσεις βασίζονται στα ενδιαφέροντα του κάθε χρήστη έπειτα από την ανάλυση που γίνεται σε προηγούμενους ιστότοπους που έχει επισκεφθεί. Στο πρώτο σκέλος της εργασίας δημιουργείται ένα σύνολο δεδομένων από άρθρα στην αγγλική γλώσσα, τα οποία συλλέγονται από τις ιστοσελίδες Wikipedia και Twingly. Ακολούθως, το δεύτερο σκέλος της εργασίας απαρτίζει η ταξινόμηση των κειμένων αυτών. Το σετ ταξινόμησης προέρχεται από την ταξινομία ΙΑΒ της ομώνυμης αμερικανικής εταιρείας και αποτελείται από 169 κλάσεις. Κάθε κλάση χαρακτηρίζει μια κατηγορία διαφήμισης. Τα κείμενα αφού συλλεχθούν περνούν από το στάδιο της προεπεξεργασίας κειμένου, κατά το οποίο αφαιρούνται περιττά στοιχεία (πχ.αριθμοί, σημεία στίξης) και το κείμενο μετασχηματίζεται σε μια πιο απλή μορφή. Ως επόμενο βήμα πριν την ταξινόμηση τα κείμενα χρειάζεται να αναπαρασταθούν διανυσματικά ώστε να είναι κατανοητά σαν είσοδος στον ταξινομητή. Για την διανυσματική αναπαράστασή τους επιλέχθηκε ένα ΝΝ εν ονόματι Doc2Vec το οποίο είναι ικανό να αναγνωρίζει σημασιολογικές και συντακτικές πληροφορίες. Το Doc2Vec θα βελτιστοποιηθεί χρησιμοποιώντας τον βασικό ταξινομητή Bernoulli Naive Bayes. Για την ταξινόμηση των κειμένων θα χρησιμοποιηθούν τα μοντέλα Λογιστικής Παλινδρόμησης, Μηχανών διανυσμάτων Υποστήριξης και Πολυστρωματικού Perceptron, αφότου βελτιστοποιηθούν. Οι επιλεγμένοι ταξινομητές εν τέλει θα αξιολογηθούν με κριτήρια την μεγαλύτερη δυνατή ακρίβεια στις προβλέψεις τους και ταυτόχρονα την καλύτερη γενίκευσή που παρουσιάζουν ως μοντέλα. el
heal.abstract This thesis surveys Neural Network (NN) models from the perspective of Natural Language Processing (NLP) when it is applied for digital advertising purposes. Automatic text analysis is a very powerful tool that is used in online advertising to recognize users’ interests. The first part of the thesis covers the creation of a dataset comprised of blogs which were collected by websites Wikipedia and Twingly. The second part of the project refers to text categorization. For this goal, the chosen category set is IAB taxonomy which is developed by the homonymous American business specialized in industry standards for the online advertising industry. In order to build the NLP model, firstly is essential to perform text preprocessing techniques like text tokenization and stop-words removal so as to bring blogs to a simpler form and achieve dimensionality reduction. Next, texts need to get numerically represented so that they are comprehensible inputs for the classifier. For the text vectorization a NN is used called Doc2Vec, which model is additionally able to understand semantic and syntactic relationships. Doc2Vec gets optimized using the Bernoulli Naive Bayes algorithm. For the final step of text classification, the models that were selected and optimized are Logistic Regression, SVM and Multilayer Perceptron. All models were in the end evaluated according to the highest accuracy of predictions they can perform and how well they can generalize. en
heal.sponsor εταιρεία XPLAIN el
heal.advisorName Κουσουρής, Κωνσταντίνος el
heal.committeeMemberName Τζαμαριουδάκη, Κατερίνα el
heal.committeeMemberName Τσιπολίτης, Γιώργος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Φυσικής el
heal.academicPublisherID ntua
heal.numberOfPages 72 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα