dc.contributor.author |
Silou, Iliana
|
en |
dc.contributor.author |
Σίλου, Ηλιάνα
|
el |
dc.date.accessioned |
2023-04-06T09:45:48Z |
|
dc.date.available |
2023-04-06T09:45:48Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/57507 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.25204 |
|
dc.rights |
Default License |
|
dc.subject |
Μηχανική Μάθηση |
el |
dc.subject |
Επιβλεπόμενη Μάθηση |
el |
dc.subject |
Ανάλυση Παλινδρόμησης |
el |
dc.subject |
Δειγματοληψία Λατινικού Υπερκύβου |
el |
dc.subject |
Προοδευτική Δειγματοληψία |
el |
dc.subject |
Machine Learning |
en |
dc.subject |
Supervised Learning |
en |
dc.subject |
Regression Analysis |
en |
dc.subject |
Latin Hypercube Sampling |
en |
dc.subject |
Progressive Sampling |
en |
dc.title |
Ανάλυση παλινδρόμησης στην μηχανική μάθηση με τη χρήση δειγματοληψίας λατινικού υπερκύβου |
el |
heal.type |
masterThesis |
|
heal.secondaryTitle |
Regression Analysis in Machine Learning using Latin Hypercube Sampling |
en |
heal.classification |
Mathematics |
en |
heal.classification |
Statistics |
en |
heal.classification |
Μαθηματικά |
el |
heal.classification |
Στατιστική |
el |
heal.language |
el |
|
heal.access |
campus |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2023-02-13 |
|
heal.abstract |
Η ψηφιακή πληροφορία έχει εδραιωθεί τόσο πολύ σε όλες τις πτυχές της ζωής και της κοινωνίας, που η πρόσφατη ανάπτυξη στην παραγωγή πληροφοριών φαίνεται ασταμάτητη. Ειδικά την τελευταία δεκαετία εξαιτίας του Διαδικτύου των Πραγμάτων κάθε μέρα στη Γη παράγονται 500 εκατομμύρια tweets, 294 δισεκατομμύρια email, 4 εκατομμύρια gigabyte δεδομένων Facebook, 65 δισεκατομμύρια μηνύματα WhatsApp και 720.000 ώρες νέου περιεχομένου που προστίθεται καθημερινά στο YouTube. Σε μια πραγματικότητα, λοιπόν, όπου τα δεδομένα υπάρχουν σε ποικίλες πηγές και μορφές, η επιλογή εκείνων που μπορούν να επιφέρουν τα σωστά και με το λιγότερο χρόνο και κόστος συμπεράσματα σε διάφορες μελέτες είναι επιτακτική ανάγκη.
Η επιλογή των δεδομένων είναι μια μορφή δειγματοληψίας. Οι τεχνικές δειγματοληψίας χρησιμοποιούνται σε πολλούς τομείς, συμπεριλαμβανομένου του στατιστικού σχεδιασμού, της επεξεργασίας εικόνας και των γραφικών. Οι τεχνικές σε κάθε πεδίο έχουν σχεδιαστεί για να ανταποκρίνονται στους περιορισμούς που αφορούν το συγκεκριμένο πεδίο, όπως ομοιόμορφη κάλυψη του εύρους κάθε διάστασης ή τυχαία δείγματα που απέχουν τουλάχιστον μια ορισμένη απόσταση μεταξύ τους.
Σε αυτή τη μελέτη προτείνεται η έννοια της ευφυούς δειγματοληψίας. Συγκρίνονται διάφορες μέθοδοι δειγματοληψίας δεδομένων και δίνεται ιδιαίτερη έμφαση στην Δειγματοληψία Λατινικών Υπερκύβων ως μια αποτελεσματική δειγματοληπτική μέθοδος σε αλγορίθμους Μηχανικής Μάθησης. Επιπλέον, εφαρμόζεται μια νέα μέθοδος Προοδευτικής Δειγματοληψίας Λατινικών Υπερκύβων, η οποία φαίνεται πολλά υποσχόμενη. Όλες οι τεχνικές δειγματοληψίας αξιολογούνται με βάση τις ίδιες μετρικές σε προβλήματα παλινδρόμησης με την χρήση δεδομένων που συλλέγονται από ανοιχτές πηγές. |
el |
heal.abstract |
Digital information has become so entrenched in all aspects of life and society that recent growth in production seems unstoppable. Especially during the last decade, due to the Internet of Things (IoT) each day on Earth 500 million tweets, 294 billion emails, 4 million gigabytes of Facebook data, 65 billion WhatsApp messages are produced and 720,000 hours of new content is added to YouTube. Therefore, data exists in a variety of sources and formats and the right selection of those that can help the scientists come to meaningful conclusions in better use of time and computer resources.
Data selection is a form of sampling. Sampling techniques are used in many fields, including design of experiments, image processing, and graphics. The techniques in each field are designed to meet the constraints specific to that field such as uniform coverage of the range of each dimension or random samples that are at least a certain distance apart from each other.
In this study the concept of intelligent sampling is proposed. Various data sampling methods are compared and special emphasis is placed on Latin Hypercube Sampling as an efficient sampling method in Machine Learning algorithms. Furthermore, a new Latin Hypercube Progressive Sampling method is being performed, which seems promising. All sampling techniques are evaluated on the same metrics in regression problems using open source datasets. |
en |
heal.advisorName |
Κουκουβίνος, Χρήστος |
el |
heal.advisorName |
Koukouvinos, Christos |
en |
heal.committeeMemberName |
Καρώνη, Χρυσηίς |
el |
heal.committeeMemberName |
Στεφανέας, Πέτρος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών |
el |
heal.academicPublisherID |
ntua |
|
heal.fullTextAvailability |
false |
|