Προοδευτική δειγματοληψία λατινικού υπερκύβου και εφαρμογές στην μηχανική μάθηση

Ιορδάνης, Ιωάννης; Iordanis, Ioannis

dc.contributor.author	Ιορδάνης, Ιωάννης	el
dc.contributor.author	Iordanis, Ioannis	en
dc.date.accessioned	2024-11-08T09:09:11Z
dc.date.available	2024-11-08T09:09:11Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/60394
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.28090
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Μαθηματική Προτυποποίηση σε Σύγχρονες Τεχνολογίες και στα Χρηματοοικονομικά”
dc.rights	Default License
dc.subject	Ταξινόμηση	el
dc.subject	Παλινδρόμηση	el
dc.subject	Συσταδοποίηση	el
dc.subject	Classification	en
dc.subject	Regression	en
dc.subject	Clustering	en
dc.subject	Προοδευτική δειγματοληψία λατινικού υπερκύβου	el
dc.subject	Μηχανική μάθηση	el
dc.subject	Progressive latin hypercube sampling	en
dc.subject	Machine learning	en
dc.title	Προοδευτική δειγματοληψία λατινικού υπερκύβου και εφαρμογές στην μηχανική μάθηση	el
dc.title	Progressive latin hypercube sampling and applications in machine learning	en
heal.type	masterThesis
heal.classification	Μαθηματικά	el
heal.classification	Δειγματοληψία	el
heal.classification	Mathematics	en
heal.classification	Sampling	en
heal.classification	Μηχανική μάθηση	el
heal.classification	Machine learning	en
heal.language	el
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2024-07-05
heal.abstract	Η εξόρυξη γνώσης από περίπλοκα δεδομένα με οικονομικό και εξακριβωμένα σωστό τρόπο, απαιτεί εξελιγμένες μεθόδους, όπως η χρήση μοντέλων μηχανικής μάθησης (ML). Παρά την αποτελεσματικότητά τους, τα μοντέλα αυτά είναι επιρρεπή σε αβεβαιότητες και παραλλαγές εντός των δεδομένων, γεγονός που μπορεί να οδηγήσει σε μειωμένη ακρίβεια και αξιοπιστία. Για την αντιμετώπιση αυτού του ζητήματος, έχουν προταθεί διάφορες τεχνικές, μεταξύ των οποίων και η χρήση δειγματοληψίας, που δημιουργεί αρχεία δεδομένων υψηλής ποιότητας για την εκπαίδευση του μοντέλου. Σε αυτά τα πλαίσια διερευνάται η προοδευτική δειγματοληψία Λατινικού υπερκύβου (PLHS). Στην PLHS, διατηρούνται οι ιδιότητες του Λατινικού υπερκύβου (LHD) και επομένως, παράγεται δείγμα όσο το δυνατόν πιο αντιπροσωπευτικό της βάσης δεδομένων. Επιπλέον, το δείγμα κατασκευάζεται με οικονομικό τρόπο, καθώς ένα μεγάλο μέρος του δείγματος για κάθε επόμενο βήμα δειγματοληψίας, έχει ήδη αποκτηθεί από προηγούμενα βήματα. Παρόλα αυτά, η προφανής σκοπιμότητα χρήσης της PLHS θα πρέπει να συνοδεύεται από αποδείξεις ότι η ποιότητα των δειγμάτων είναι επαρκής, για χρήση σε εφαρμογές της αγοράς. ΄Ενας κατάλληλος τρόπος για να αξιολογηθεί η PLHS είναι να χρησιμοποιηθεί σε μοντέλα ML και να εξετασθεί η ακρίβεια των αποτελεσμάτων, συγκριτικά με άλλη μέθοδο δειγματοληψίας. Η διαδικασία αυτή εφαρμόσθηκε στη παρούσα διπλωματική εργασία, η οποία δομείται ως εξής: Στο πρώτο εισαγωγικό κεφάλαιο αναφέρεται το πρόβλημα των δεδομένων, η ανάγκη της σωστής δειγματοληψίας και βασικές έννοιες της ML. Στο δεύτερο κεφάλαιο αναφέρονται βασικοί ορισμοί του LHD και της PLHS. Στο τρίτο κεφάλαιο αναλύονται οι προϋποθέσεις για σωστή δειγματοληψίας με LHD και αναπτύσσεται ο αλγόριθμος για PLHS σε πραγματικά δεδομένα. Στο τέταρτο κεφάλαιο περιγράφονται τα μοντέλα επιβλεπόμενης και μη ML, που χρησιμοποιήθηκαν στη μελέτη. Στο πέμπτο κεφάλαιο αναφέρονται οι τεχνικές βελτίωσης που χρησιμοποιήθηκαν, ώστε να υπάρχουν καλύτερες αποδόσεις και οι κατάλληλες μετρικές, για την αξιολόγηση των δειγματοληψιών. Στο τελευταίο έκτο κεφάλαιο αναφέρονται αναλυτικά τα σύνολα δεδομένων, η διαδικασία των δειγματοληψιών και η εφαρμογή των δεδομένων στα μοντέλα ML. Τέλος αξιολογούνται τα αποτελέσματα χωριστά για ταξινόμηση, παλινδρόμηση και συσταδοποίηση και αποτιμάται η χρήση της PLHS σε σύγκριση με την τυχαία δειγματοληψία.	el
heal.abstract	Data mining from complex data in a cost-effective and ascertained correct way, requires sophisticated methods such as the use of machine learning (ML) models. Despite their effectiveness, these models are prone to uncertainties and variations within the data, which can result in reduced accuracy and reliability. To address this issue, various techniques have been proposed, using a sampling method that creates high quality data files for model training included. Within this frame, Progressive Latin Hypercube Sampling (PLHS) is explored. In PLHS, the properties of the Latin hypercube (LHD) are preserved and thus a sample as representative as possible of the database is produced. In addition, the sample is created in an economical way, since a large part of the sample for each subsequent sampling step, has already been obtained from the preceding steps. Nevertheless, the obvious feasibility of using PLHS should be accompanied by evidence that the quality of the samples is adequate for use in market applications. An appropriate way to evaluate PLHS is to be used in ML models and to examine the accuracy of the results, in comparison to another sampling method. This procedure was applied in the present thesis which is structured as follows: In the first, introductory, chapter the data problem, the need for proper sampling and basic concepts of ML are presented. In the second chapter basic definitions of LHD and PLHS are addressed. In the third chapter the prerequisites for correct sampling with LHD are analyzed and the algorithm for PLHS on real data is cited. In the fourth chapter the supervised and unsupervised ML models used in the thesis are described. The fifth chapter introduces the improvement techniques that were used in order to achieve better performances and the appropriate metrics for sampling evaluation. In the last chapter the data sets, the sampling procedure, and the application of the data to the ML models are presented. Finally, the results are evaluated separately for classification, regression and clustering and the use of PLHS is evaluated in comparison to Random Sampling.	en
heal.advisorName	Κουκουβίνος, Χρήστος	el
heal.advisorName	Koukouvinos, Christos	en
heal.committeeMemberName	Κουκουβίνος, Χρήστος	el
heal.committeeMemberName	Καρώνη-Ρίτσαρντσον, Χρυσηίς	el
heal.committeeMemberName	Στεφανέας, Πέτρος	el
heal.committeeMemberName	Koukouvinos, Christos	en
heal.committeeMemberName	Caroni-Richardson, Chrys	en
heal.committeeMemberName	Stefaneas, Petros	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών	el
heal.academicPublisherID	ntua
heal.numberOfPages	135 σ.	el
heal.fullTextAvailability	false