dc.contributor.author | Σταματάκης, Αργύρης | el |
dc.contributor.author | Stamatakis, Argyris | en |
dc.date.accessioned | 2022-12-15T07:59:49Z | |
dc.date.available | 2022-12-15T07:59:49Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/56456 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.24154 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Μαθηματική Προτυποποίηση σε Σύγχρονες Τεχνολογίες και στα Χρηματοοικονομικά” | el |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Μη ισορροπημένα σύνολα δεδομένων | el |
dc.subject | Τεχνικές διαχείρισης συνόλων δεδομένων | el |
dc.subject | Δυαδική κατηγοριοποίηση | el |
dc.subject | Μέθοδοι διαχείρισης συνόλων δεδομένων | el |
dc.subject | Επικρατούσα κλάση | el |
dc.subject | Imbalanced datasets | en |
dc.subject | Handling techniques of datasets | en |
dc.subject | Binary classification | en |
dc.subject | Handling methods of datasets | en |
dc.subject | Dominant class | en |
dc.title | Τεχνικές διαχείρισης μη ισορροπημένων σύνολων δεδομένων δυαδικής κατηγοριοποίησης στη μηχανική μάθηση | el |
dc.title | Handling techniques for imbalanced binary classification datasets in machine learning | en |
heal.type | masterThesis | |
heal.classification | Επιστήμη Δεδομένων | el |
heal.classification | Data Science | en |
heal.language | el | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2022-09-08 | |
heal.abstract | Στο σύγχρονο κόσμο, η χρήση της Επιστήμης των Δεδομένων είναι διάχυτη σε όλα τα επιστημονικά πεδία. Η προσπάθεια εύρεσης του πιο ικανού αλγόριθμου που θα μπορεί να εκτιμάει σχεδόν τέλεια τα αποτελέσματα για κάθε καινούργιο σύνολο δεδομένων είναι ένας από τους πιο σημαντικούς και ενδιαφέροντες στόχους των επιστημόνων. Ο σκοπός της παρούσας διπλωματικής εργασίας είναι να εμβαθύνει στο πρόβλημα που προκύπτει όταν σε ένα σύνολο δεδομένων δυαδικής κατηγοριοποίησης η μια από τις δυο κλάσεις υπερτερεί σημαντικά σε αριθμό εγγραφών σε σχέση με την άλλη. Αυτό συνιστά πρόβλημα, γιατί συνήθως οι αλγόριθμοι τείνουν να εστιάζουν στην επικρατούσα κλάση, αγνοώντας τη μικρότερη κλάση. Η εφαρμογή με την οποία ερευνούμε τα θεωρητικά δεδομένα, που παρουσιάζουμε στα πρώτα κεφάλαια, αναφέρεται σε μια εταιρεία που ενδιαφέρεται να γνωρίζει ποιοι από τους υπαλλήλους που θα επιλέξει για να τους εκπαιδεύσει, θα παραμείνουν στην εταιρεία ως υπάλληλοι και δε θα χρησιμοποιήσουν την εκπαίδευση για να βρουν μια άλλη εργασία. Η επικρατούσα κλάση που αφορά τους υπαλλήλους που παραμένουν στην εταιρεία έχει ένα ποσοστό 75% από το σύνολο δεδομένων και η περίπτωση αυτή θεωρείται ως ένας ήπιος βαθμός ανισορροπίας του συνόλου. Η έρευνα στην οποία θα προβούμε θα εστιάσει στις μεθόδους διαχείρισης μη ισορροπημένων δεδομένων κατηγοριοποίησης. | el |
heal.abstract | In the modern world, the use of Data Science is wide spread in all the scientific fields. Trying to find the most capable algorithm that can almost perfectly evaluate the results for each new dataset is one of the most important and interesting goals of scientists. The purpose of this thesis is to delve into the problem that arises when in a dataset of binary categorization one of the two classes is significantly bigger in number of records compared to the other. This is a problem, because algorithms usually tend to focus on the dominant class, ignoring the smaller class. The application with which we research the theory that is presented in the first chapters, refers to a company that is interested in knowing which of the employees that will be chosen to be educated, will remain in the company as employees and will not use the training courses to find another job. The dominant class, concerning the employees who remain in the company, has a percentage of 75% of the dataset and this case is considered as a mild degree of total imbalance. Our research will be focused on methods for managing imbalanced categorization dataset. | en |
heal.advisorName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Βουλόδημος, Αθανάσιος | el |
heal.committeeMemberName | Τζούβελη, Παρασκευή | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 103 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: