dc.contributor.author | Hadjiharalambous, Georgios | en |
dc.contributor.author | Χατζηχαραλάμπους, Γεώργιος | el |
dc.date.accessioned | 2019-07-22T11:27:24Z | |
dc.date.available | 2019-07-22T11:27:24Z | |
dc.date.issued | 2019-07-22 | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/49115 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.16612 | |
dc.rights | Αναφορά Δημιουργού-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nd/3.0/gr/ | * |
dc.subject | Real Time Bidding (RTB) | en |
dc.subject | Click-Through Rate (CTR) | en |
dc.subject | Factorization Machine (FM) | en |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | Μηχανή παραγοντοποίησης | el |
dc.subject | Δημοπρασίες ζωντανού χρόνου | el |
dc.subject | Πρόβλεψη απόκρισης χρήστη | el |
dc.subject | Μείωση διάστασης | el |
dc.subject | Dimensionality reduction | en |
dc.subject | Neural networks | en |
dc.title | Πρόβλεψη τιμών δημοπρασιών online διαφημίσεων με ευφυείς τεχνικές | el |
heal.type | bachelorThesis | |
heal.classification | Μηχανική Μάθηση | el |
heal.classification | Πληροφορική | el |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2019-06-10 | |
heal.abstract | Τα τελευταία χρόνια με την άνοδο και κυριαρχία του διαδικτύου, οι εταιρείες έχουν αλλάξει τελείως τον τρόπο που διαφημίζουν τα προϊόντα τους. Οι διαφημίσεις πλέον γίνονται κυρίως με χρήση του διαδικτύου και πιο συγκεκριμένα, μέσω προβολής τους σε μικρά παράθυρα των ιστοσελίδων. Λόγω της εκτενούς χρήσης του διαδικτύου επήλθε μεγάλη ανάπτυξη στην ηλεκτρονική προβολή διαφημίσεων αλλά ταυτόχρονα, αποτέλεσε σημαντικό τομέα έρευνας. Ο μηχανισμός που παρέχει τις δημοπρασίες και βοηθά την αγορά και πώληση ηλεκτρονικών διαφημίσεων ονομάζεται Real Time Bidding (RTB). Περαιτέρω, καθώς ζούμε στη εποχή των Big Data, ο κλάδος του RTB επωφελείται και εκμεταλλεύεται τα πολλά δεδομένα που υπάρχουν στην αγορά. Συγκεκριμένα, με τη δημιουργία ατομικών profile από τα δεδομένα που συλλέγουν συνεχώς για κάθε χρήστη, παράγονται στοχευμένες και ουσιαστικές διαφημίσεις που ενδιαφέρουν το συγκεκριμένο χρήστη. Παρόλη την ανάπτυξη του κλάδου αυτού, υπάρχουν πολλά προβλήματα στον ορίζοντα. Ειδικότερα, τα δεδομένα που υπάρχουν είναι ιδιαίτερα πολύπλοκα και χρειάζονται σημαντική επεξεργασία για να μπορούν να αξιοποιηθούν από τους διαφημιστές. Επίσης, η διάσταση τους είναι πολύ μεγάλη για να μπορούν οι αλγόριθμοι να τα χρησιμοποιήσουν στην αρχική τους μορφή, καθώς απαιτούν μεγάλη υπολογιστική ισχύ. Αξίζει να τονιστεί όμως, ότι τα σημαντικότερα προβλήματα εντοπίζονται στη διαδικασία της δημοπρασίας. Συγκεκριμένα, σε κάθε δημοπρασία, απαιτείται να αποφασιστεί αν θα συμμετάσχει ή όχι ο κάθε διαφημιστής και ποια θα είναι η τιμή προσφοράς της διαφήμισης. Συνάμα, απαραίτητος είναι και ο έλεγχος του προϋπολογισμού κάθε διαφημιστή, ούτως ώστε να επιτευχθούν τα καλύτερα αποτελέσματα σε βάθος χρόνου. Σκοπός της διπλωματικής αυτής είναι η μελέτη του οικοσυστήματος του RTB σε ηλεκτρονικές διαφημίσεις και η εύρεση λύσεων στα προαναφερθέντα προβλήματα επιλογής των τιμών τους στις δημοπρασίες μέσω πρόβλεψης της απόκρισης του χρήστη. Έμφαση δίνεται στην πρόβλεψη του ClickThrough Rate (CTR), που πραγματοποιείται με δύο μεθόδους. Η δημοφιλής μέθοδος των νευρωνικών δικτύων χρησιμοποιείται για την πρόβλεψη του CTR, ενώ επιπλέον μελετάται και παρουσιάζεται μια πρόσφατα δημοσιευμένη μέθοδος που τη χρησιμοποιούμε και για μείωσης της διάστασης των δεδομένων σε προβλήματα μηχανικής μάθησης, που ονομάζεται μηχανή παραγοντοποίησης - Factorization Machine (FM). Εφαρμόσαμε και συγκρίναμε αυτές τις δύο μεθόδους για πρόβλεψη του CTR, χρησιμοποιόντας το σύνολο δεδομένων IPinYou. Επίσης, μερικές δοκιμές της FM έγιναν και στο σύνολο δεδομένων Criteo για πρόβλεψη CTR. Παρατηρούμε ότι τα αποτελέσματα μας τόσο με τη FM όσο και με τα νευρωνικά δίκτυα είναι αρκετά ικανοποιητικά, και αντίστοιχης ακρίβειας με τα τελευταία τεχνολογικά μοντέλα. Τα αποτελέσματα αξιολογήθηκαν με βάση δύο διαδεδομένες μετρικές αξιολόγησης, την Area Under the Curve (AUC) και Root Mean Square Error (RMSE). Σημαντικό ρόλο στα αποτελέσματα φαίνεται να έχει το μέγεθος του διανύσματος παραγοντοποίσης κάθε χαρακτηριστικού της FM των δεδομένων μας, συνεπώς για την εκπαίδευση του μοντέλου της μηχανής παραγοντοποίησης, διερευνήσαμε διάφορα μεγέθη διανύσματος και καταλήξαμε ότι με ένα μικρό σχετικά διάνυσμα (k=20), μπορούμε να αναπαραστήσουμε εξαιρετικά τα χαρακτηριστικά εισόδου. i Αξίζει να σημειώσουμε ότι τα δικά μας μοντέλα είναι αρκετά πιο απλά στην υλοποίηση αλλά και πιο αποδοτικά από θέμα υπολογιστικής ισχύς, σε σχέση με τα υπάρχοντα μοντέλα. Συνεπώς, αποτελεί σημαντικό πλεονέκτημα αλλά και συμπέρασμα ότι τα μοντέλα που χρησιμοποιήθηκαν σε αυτή την εργασία, παράγουν αντίστοιχης ποιότητας αποτελέσματα, αλλά με πιο απλό και αποδοτικό τρόπο. Ταυτόχρονα, καθότι τα μοντέλα είναι απλά, υπάρχει μεγάλο περιθώριο βελτίωσης με χρήση συνδυασμού μεθόδων αλλά και πιο πολύπλοκων μοντέλων, δημιουργώντας σημαντικές ευκαιρίες για μελλοντική συνέχιση αυτής της μελέτης. Τέλος, μέσω της παρούσας διπλωματικής αναδεικνύεται η δύναμη της μηχανής παραγοντοποίησης τόσο για γενική χρήση σαν αλγόριθμος μηχανικής μάθησης αλλά και για μείωση της διάστασης δεδομένων, με πολλές δυνατότητες για μεγάλο εύρος εφαρμογών. Ταυτόχρονα, τονίζεται η σπουδαιότητα του profiling των χρηστών για πιο στοχευμένες διαφημίσεις αλλά και για την επίτευξη μεγαλύτερης ακρίβειας στην πρόβλεψη του CTR. | el |
heal.abstract | Over the past years, through the rise and dominance of the Internet, companies have changed the way they advertise their products. Nowadays, most advertisements (ads) are made using the Internet. More specifically, ads are usually shown in small areas of websites, called banners. Due to the extensive popularity of the internet, there has been a vast development and improvement in the field of online ads display, with a subsequent research interest in the field. The mechanism which provides the auctions and facilitates the sales and purchases of online ads is called Real Time Bidding (RTB). Furthermore, as we live in the era of Big Data, the field of RTB can significantly benefit from the large amounts of data that exist in the open market. Specifically, through the creation of individual user profiles, targeted and more relevant ads can be promoted to each user.Despite significant advances in field of online ads, important problems remain. Specifically, the data available for creating user profiles are very complex and require a significant amount of preprocessing in order to be useful to advertisers. Furthermore, the data dimension is large, thus significant computational power is required for running relevant data-processing algorithms. However, it is worth mentioning that the most important problems are found in the auction process. For each auction, there are the requirements of determining whether an advertiser will join or not, and what the bidding price for the specific ad will be. Moreover, budget control for each advertiser is also a necessity, in order to achieve the best long-term results.The purpose of this dissertation is to study the RTB ecosystem in online advertisements and to find solutions for the underlying problem of selecting the final bidding price in the auctions through the forecasting of the user response. Particular attention is given to predicting the Click-Through Rate (CTR) which is estimated using two approaches. The widely used Neural Networks method is used for CTR prediction, while this work also studies the Factorization Machine (FM) technique – a recently published method which it’s also used for dimensionality reduction in machine learning problems. Both methods were applied and compared to predict CTR, using the IPinYou dataset. Furthemore, FM was tested in the Criteo dataset for CTR prediction.Based on the abovementioned methods and simulations we can observe that our results are quite satisfactory, and of similar accuracy as the state-of-the-art models found in the literature. The accuracy of the results was assessed using two widely employed metrics, the Area Under the Curve (AUC) and the Root Mean Square Error (RMSE). Through the analysis performed, the dimension of the factorization vector of the characteristics was found to have an important effect on the results, thus several sizes were tested for the dimension during the training of the factorization machine method. It was found that a relatively small dimension of factorization vector (k=20) is able to fully represent the input characteristics.It is worth mentioning that the models employed in this work are much simpler in implementation and more computationally efficient compared to existing popular models. Accordingly, an important contribution of this work is the fact that sufficient accuracy can be achieved in a simpler and more computationally efficient manner, compared to state-of-the-art methods. At the same time, as the iii models used are simple in terms of implementation, there is significant potential for improvement, creating opportunities for future continuation of the work presented. Finally, this dissertation has highlighted the power and potential of the factorization machine method, both as a general predictor formachine learning tasks and for dimensionality reduction in data – with a wide range of possible applications. At the same time, the analysis performed emphasizes the importance of user profiling for producing targeted and more relevant ads and for achieving improved accuracy in CTR predictions | en |
heal.advisorName | Σταφυλοπάτης, Ανδρέας - Γεώργιος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας - Γεώργιος | el |
heal.committeeMemberName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Τσανάκας, Παναγιώτης | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 82 σ. | |
heal.fullTextAvailability | true |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: