Ανάλυση παλινδρόμησης στην μηχανική μάθηση με τη χρήση δειγματοληψίας λατινικού υπερκύβου

Silou, Iliana; Σίλου, Ηλιάνα

dc.contributor.author	Silou, Iliana	en
dc.contributor.author	Σίλου, Ηλιάνα	el
dc.date.accessioned	2023-04-06T09:45:48Z
dc.date.available	2023-04-06T09:45:48Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/57507
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.25204
dc.rights	Default License
dc.subject	Μηχανική Μάθηση	el
dc.subject	Επιβλεπόμενη Μάθηση	el
dc.subject	Ανάλυση Παλινδρόμησης	el
dc.subject	Δειγματοληψία Λατινικού Υπερκύβου	el
dc.subject	Προοδευτική Δειγματοληψία	el
dc.subject	Machine Learning	en
dc.subject	Supervised Learning	en
dc.subject	Regression Analysis	en
dc.subject	Latin Hypercube Sampling	en
dc.subject	Progressive Sampling	en
dc.title	Ανάλυση παλινδρόμησης στην μηχανική μάθηση με τη χρήση δειγματοληψίας λατινικού υπερκύβου	el
heal.type	masterThesis
heal.secondaryTitle	Regression Analysis in Machine Learning using Latin Hypercube Sampling	en
heal.classification	Mathematics	en
heal.classification	Statistics	en
heal.classification	Μαθηματικά	el
heal.classification	Στατιστική	el
heal.language	el
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2023-02-13
heal.abstract	Η ψηφιακή πληροφορία έχει εδραιωθεί τόσο πολύ σε όλες τις πτυχές της ζωής και της κοινωνίας, που η πρόσφατη ανάπτυξη στην παραγωγή πληροφοριών φαίνεται ασταμάτητη. Ειδικά την τελευταία δεκαετία εξαιτίας του Διαδικτύου των Πραγμάτων κάθε μέρα στη Γη παράγονται 500 εκατομμύρια tweets, 294 δισεκατομμύρια email, 4 εκατομμύρια gigabyte δεδομένων Facebook, 65 δισεκατομμύρια μηνύματα WhatsApp και 720.000 ώρες νέου περιεχομένου που προστίθεται καθημερινά στο YouTube. Σε μια πραγματικότητα, λοιπόν, όπου τα δεδομένα υπάρχουν σε ποικίλες πηγές και μορφές, η επιλογή εκείνων που μπορούν να επιφέρουν τα σωστά και με το λιγότερο χρόνο και κόστος συμπεράσματα σε διάφορες μελέτες είναι επιτακτική ανάγκη. Η επιλογή των δεδομένων είναι μια μορφή δειγματοληψίας. Οι τεχνικές δειγματοληψίας χρησιμοποιούνται σε πολλούς τομείς, συμπεριλαμβανομένου του στατιστικού σχεδιασμού, της επεξεργασίας εικόνας και των γραφικών. Οι τεχνικές σε κάθε πεδίο έχουν σχεδιαστεί για να ανταποκρίνονται στους περιορισμούς που αφορούν το συγκεκριμένο πεδίο, όπως ομοιόμορφη κάλυψη του εύρους κάθε διάστασης ή τυχαία δείγματα που απέχουν τουλάχιστον μια ορισμένη απόσταση μεταξύ τους. Σε αυτή τη μελέτη προτείνεται η έννοια της ευφυούς δειγματοληψίας. Συγκρίνονται διάφορες μέθοδοι δειγματοληψίας δεδομένων και δίνεται ιδιαίτερη έμφαση στην Δειγματοληψία Λατινικών Υπερκύβων ως μια αποτελεσματική δειγματοληπτική μέθοδος σε αλγορίθμους Μηχανικής Μάθησης. Επιπλέον, εφαρμόζεται μια νέα μέθοδος Προοδευτικής Δειγματοληψίας Λατινικών Υπερκύβων, η οποία φαίνεται πολλά υποσχόμενη. Όλες οι τεχνικές δειγματοληψίας αξιολογούνται με βάση τις ίδιες μετρικές σε προβλήματα παλινδρόμησης με την χρήση δεδομένων που συλλέγονται από ανοιχτές πηγές.	el
heal.abstract	Digital information has become so entrenched in all aspects of life and society that recent growth in production seems unstoppable. Especially during the last decade, due to the Internet of Things (IoT) each day on Earth 500 million tweets, 294 billion emails, 4 million gigabytes of Facebook data, 65 billion WhatsApp messages are produced and 720,000 hours of new content is added to YouTube. Therefore, data exists in a variety of sources and formats and the right selection of those that can help the scientists come to meaningful conclusions in better use of time and computer resources. Data selection is a form of sampling. Sampling techniques are used in many fields, including design of experiments, image processing, and graphics. The techniques in each field are designed to meet the constraints specific to that field such as uniform coverage of the range of each dimension or random samples that are at least a certain distance apart from each other. In this study the concept of intelligent sampling is proposed. Various data sampling methods are compared and special emphasis is placed on Latin Hypercube Sampling as an efficient sampling method in Machine Learning algorithms. Furthermore, a new Latin Hypercube Progressive Sampling method is being performed, which seems promising. All sampling techniques are evaluated on the same metrics in regression problems using open source datasets.	en
heal.advisorName	Κουκουβίνος, Χρήστος	el
heal.advisorName	Koukouvinos, Christos	en
heal.committeeMemberName	Καρώνη, Χρυσηίς	el
heal.committeeMemberName	Στεφανέας, Πέτρος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false