dc.contributor.author | Κωστοπούλου, Φωτεινή Μαρία | el |
dc.contributor.author | Kostopoulou, Foteini Maria | en |
dc.date.accessioned | 2020-10-26T15:19:43Z | |
dc.date.available | 2020-10-26T15:19:43Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/51635 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.19333 | |
dc.rights | Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nd/3.0/gr/ | * |
dc.subject | Επεξεργασία κειμένου | el |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | Επεξεργασία φυσικής γλώσσας | el |
dc.subject | Πίνακας σύγχυσης | el |
dc.subject | Ταξινόμηση κειμένου | el |
dc.subject | Doc2Vec | en |
dc.subject | Word2Vec | en |
dc.subject | Natural Language Processing | en |
dc.subject | Multi-class text classification | en |
dc.subject | Text preprocessing | en |
dc.title | Δημιουργία συνόλου δεδομένων άρθρων και ταξινόμηση κειμένου για διαφημιστικούς σκοπούς | el |
dc.title | Blog Dataset creation and multi-class Text Classification for Advertisement purposes | en |
heal.type | bachelorThesis | |
heal.classification | Επεξεργασία φυσικής γλώσσας | el |
heal.classification | Μηχανική μάθηση | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2020-10-08 | |
heal.abstract | Το αντικείμενο της παρούσας διπλωματικής εργασίας σχετίζεται με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας προσανατολισμένο στις εφαρμογές της διαδικτυακής διαφήμισης. Αναλυτικότερα η επεξεργασία κειμένου είναι αναγκαίο εργαλείο για την αυτόματη προσθήκη διαφημίσεων σε δωρεάν ιστοσελίδες του παγκόσμιου ιστού, οι οποίες διαφημίσεις βασίζονται στα ενδιαφέροντα του κάθε χρήστη έπειτα από την ανάλυση που γίνεται σε προηγούμενους ιστότοπους που έχει επισκεφθεί. Στο πρώτο σκέλος της εργασίας δημιουργείται ένα σύνολο δεδομένων από άρθρα στην αγγλική γλώσσα, τα οποία συλλέγονται από τις ιστοσελίδες Wikipedia και Twingly. Ακολούθως, το δεύτερο σκέλος της εργασίας απαρτίζει η ταξινόμηση των κειμένων αυτών. Το σετ ταξινόμησης προέρχεται από την ταξινομία ΙΑΒ της ομώνυμης αμερικανικής εταιρείας και αποτελείται από 169 κλάσεις. Κάθε κλάση χαρακτηρίζει μια κατηγορία διαφήμισης. Τα κείμενα αφού συλλεχθούν περνούν από το στάδιο της προεπεξεργασίας κειμένου, κατά το οποίο αφαιρούνται περιττά στοιχεία (πχ.αριθμοί, σημεία στίξης) και το κείμενο μετασχηματίζεται σε μια πιο απλή μορφή. Ως επόμενο βήμα πριν την ταξινόμηση τα κείμενα χρειάζεται να αναπαρασταθούν διανυσματικά ώστε να είναι κατανοητά σαν είσοδος στον ταξινομητή. Για την διανυσματική αναπαράστασή τους επιλέχθηκε ένα ΝΝ εν ονόματι Doc2Vec το οποίο είναι ικανό να αναγνωρίζει σημασιολογικές και συντακτικές πληροφορίες. Το Doc2Vec θα βελτιστοποιηθεί χρησιμοποιώντας τον βασικό ταξινομητή Bernoulli Naive Bayes. Για την ταξινόμηση των κειμένων θα χρησιμοποιηθούν τα μοντέλα Λογιστικής Παλινδρόμησης, Μηχανών διανυσμάτων Υποστήριξης και Πολυστρωματικού Perceptron, αφότου βελτιστοποιηθούν. Οι επιλεγμένοι ταξινομητές εν τέλει θα αξιολογηθούν με κριτήρια την μεγαλύτερη δυνατή ακρίβεια στις προβλέψεις τους και ταυτόχρονα την καλύτερη γενίκευσή που παρουσιάζουν ως μοντέλα. | el |
heal.abstract | This thesis surveys Neural Network (NN) models from the perspective of Natural Language Processing (NLP) when it is applied for digital advertising purposes. Automatic text analysis is a very powerful tool that is used in online advertising to recognize users’ interests. The first part of the thesis covers the creation of a dataset comprised of blogs which were collected by websites Wikipedia and Twingly. The second part of the project refers to text categorization. For this goal, the chosen category set is IAB taxonomy which is developed by the homonymous American business specialized in industry standards for the online advertising industry. In order to build the NLP model, firstly is essential to perform text preprocessing techniques like text tokenization and stop-words removal so as to bring blogs to a simpler form and achieve dimensionality reduction. Next, texts need to get numerically represented so that they are comprehensible inputs for the classifier. For the text vectorization a NN is used called Doc2Vec, which model is additionally able to understand semantic and syntactic relationships. Doc2Vec gets optimized using the Bernoulli Naive Bayes algorithm. For the final step of text classification, the models that were selected and optimized are Logistic Regression, SVM and Multilayer Perceptron. All models were in the end evaluated according to the highest accuracy of predictions they can perform and how well they can generalize. | en |
heal.sponsor | εταιρεία XPLAIN | el |
heal.advisorName | Κουσουρής, Κωνσταντίνος | el |
heal.committeeMemberName | Τζαμαριουδάκη, Κατερίνα | el |
heal.committeeMemberName | Τσιπολίτης, Γιώργος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Φυσικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 72 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: