Δημιουργία συνόλου δεδομένων άρθρων και ταξινόμηση κειμένου για
διαφημιστικούς σκοπούς

Κωστοπούλου, Φωτεινή Μαρία; Kostopoulou, Foteini Maria

dc.contributor.author	Κωστοπούλου, Φωτεινή Μαρία	el
dc.contributor.author	Kostopoulou, Foteini Maria	en
dc.date.accessioned	2020-10-26T15:19:43Z
dc.date.available	2020-10-26T15:19:43Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/51635
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.19333
dc.rights	Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/gr/	*
dc.subject	Επεξεργασία κειμένου	el
dc.subject	Νευρωνικά δίκτυα	el
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Πίνακας σύγχυσης	el
dc.subject	Ταξινόμηση κειμένου	el
dc.subject	Doc2Vec	en
dc.subject	Word2Vec	en
dc.subject	Natural Language Processing	en
dc.subject	Multi-class text classification	en
dc.subject	Text preprocessing	en
dc.title	Δημιουργία συνόλου δεδομένων άρθρων και ταξινόμηση κειμένου για διαφημιστικούς σκοπούς	el
dc.title	Blog Dataset creation and multi-class Text Classification for Advertisement purposes	en
heal.type	bachelorThesis
heal.classification	Επεξεργασία φυσικής γλώσσας	el
heal.classification	Μηχανική μάθηση	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2020-10-08
heal.abstract	Το αντικείμενο της παρούσας διπλωματικής εργασίας σχετίζεται με τον τομέα της Επεξεργασίας Φυσικής Γλώσσας προσανατολισμένο στις εφαρμογές της διαδικτυακής διαφήμισης. Αναλυτικότερα η επεξεργασία κειμένου είναι αναγκαίο εργαλείο για την αυτόματη προσθήκη διαφημίσεων σε δωρεάν ιστοσελίδες του παγκόσμιου ιστού, οι οποίες διαφημίσεις βασίζονται στα ενδιαφέροντα του κάθε χρήστη έπειτα από την ανάλυση που γίνεται σε προηγούμενους ιστότοπους που έχει επισκεφθεί. Στο πρώτο σκέλος της εργασίας δημιουργείται ένα σύνολο δεδομένων από άρθρα στην αγγλική γλώσσα, τα οποία συλλέγονται από τις ιστοσελίδες Wikipedia και Twingly. Ακολούθως, το δεύτερο σκέλος της εργασίας απαρτίζει η ταξινόμηση των κειμένων αυτών. Το σετ ταξινόμησης προέρχεται από την ταξινομία ΙΑΒ της ομώνυμης αμερικανικής εταιρείας και αποτελείται από 169 κλάσεις. Κάθε κλάση χαρακτηρίζει μια κατηγορία διαφήμισης. Τα κείμενα αφού συλλεχθούν περνούν από το στάδιο της προεπεξεργασίας κειμένου, κατά το οποίο αφαιρούνται περιττά στοιχεία (πχ.αριθμοί, σημεία στίξης) και το κείμενο μετασχηματίζεται σε μια πιο απλή μορφή. Ως επόμενο βήμα πριν την ταξινόμηση τα κείμενα χρειάζεται να αναπαρασταθούν διανυσματικά ώστε να είναι κατανοητά σαν είσοδος στον ταξινομητή. Για την διανυσματική αναπαράστασή τους επιλέχθηκε ένα ΝΝ εν ονόματι Doc2Vec το οποίο είναι ικανό να αναγνωρίζει σημασιολογικές και συντακτικές πληροφορίες. Το Doc2Vec θα βελτιστοποιηθεί χρησιμοποιώντας τον βασικό ταξινομητή Bernoulli Naive Bayes. Για την ταξινόμηση των κειμένων θα χρησιμοποιηθούν τα μοντέλα Λογιστικής Παλινδρόμησης, Μηχανών διανυσμάτων Υποστήριξης και Πολυστρωματικού Perceptron, αφότου βελτιστοποιηθούν. Οι επιλεγμένοι ταξινομητές εν τέλει θα αξιολογηθούν με κριτήρια την μεγαλύτερη δυνατή ακρίβεια στις προβλέψεις τους και ταυτόχρονα την καλύτερη γενίκευσή που παρουσιάζουν ως μοντέλα.	el
heal.abstract	This thesis surveys Neural Network (NN) models from the perspective of Natural Language Processing (NLP) when it is applied for digital advertising purposes. Automatic text analysis is a very powerful tool that is used in online advertising to recognize users’ interests. The first part of the thesis covers the creation of a dataset comprised of blogs which were collected by websites Wikipedia and Twingly. The second part of the project refers to text categorization. For this goal, the chosen category set is IAB taxonomy which is developed by the homonymous American business specialized in industry standards for the online advertising industry. In order to build the NLP model, firstly is essential to perform text preprocessing techniques like text tokenization and stop-words removal so as to bring blogs to a simpler form and achieve dimensionality reduction. Next, texts need to get numerically represented so that they are comprehensible inputs for the classifier. For the text vectorization a NN is used called Doc2Vec, which model is additionally able to understand semantic and syntactic relationships. Doc2Vec gets optimized using the Bernoulli Naive Bayes algorithm. For the final step of text classification, the models that were selected and optimized are Logistic Regression, SVM and Multilayer Perceptron. All models were in the end evaluated according to the highest accuracy of predictions they can perform and how well they can generalize.	en
heal.sponsor	εταιρεία XPLAIN	el
heal.advisorName	Κουσουρής, Κωνσταντίνος	el
heal.committeeMemberName	Τζαμαριουδάκη, Κατερίνα	el
heal.committeeMemberName	Τσιπολίτης, Γιώργος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Φυσικής	el
heal.academicPublisherID	ntua
heal.numberOfPages	72 σ.	el
heal.fullTextAvailability	false