HEAL DSpace

Τεχνικές διαχείρισης μη ισορροπημένων σύνολων δεδομένων δυαδικής κατηγοριοποίησης στη μηχανική μάθηση

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σταματάκης, Αργύρης el
dc.contributor.author Stamatakis, Argyris en
dc.date.accessioned 2022-12-15T07:59:49Z
dc.date.available 2022-12-15T07:59:49Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56456
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24154
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Μαθηματική Προτυποποίηση σε Σύγχρονες Τεχνολογίες και στα Χρηματοοικονομικά” el
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Μη ισορροπημένα σύνολα δεδομένων el
dc.subject Τεχνικές διαχείρισης συνόλων δεδομένων el
dc.subject Δυαδική κατηγοριοποίηση el
dc.subject Μέθοδοι διαχείρισης συνόλων δεδομένων el
dc.subject Επικρατούσα κλάση el
dc.subject Imbalanced datasets en
dc.subject Handling techniques of datasets en
dc.subject Binary classification en
dc.subject Handling methods of datasets en
dc.subject Dominant class en
dc.title Τεχνικές διαχείρισης μη ισορροπημένων σύνολων δεδομένων δυαδικής κατηγοριοποίησης στη μηχανική μάθηση el
dc.title Handling techniques for imbalanced binary classification datasets in machine learning en
heal.type masterThesis
heal.classification Επιστήμη Δεδομένων el
heal.classification Data Science en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-09-08
heal.abstract Στο σύγχρονο κόσμο, η χρήση της Επιστήμης των Δεδομένων είναι διάχυτη σε όλα τα επιστημονικά πεδία. Η προσπάθεια εύρεσης του πιο ικανού αλγόριθμου που θα μπορεί να εκτιμάει σχεδόν τέλεια τα αποτελέσματα για κάθε καινούργιο σύνολο δεδομένων είναι ένας από τους πιο σημαντικούς και ενδιαφέροντες στόχους των επιστημόνων. Ο σκοπός της παρούσας διπλωματικής εργασίας είναι να εμβαθύνει στο πρόβλημα που προκύπτει όταν σε ένα σύνολο δεδομένων δυαδικής κατηγοριοποίησης η μια από τις δυο κλάσεις υπερτερεί σημαντικά σε αριθμό εγγραφών σε σχέση με την άλλη. Αυτό συνιστά πρόβλημα, γιατί συνήθως οι αλγόριθμοι τείνουν να εστιάζουν στην επικρατούσα κλάση, αγνοώντας τη μικρότερη κλάση. Η εφαρμογή με την οποία ερευνούμε τα θεωρητικά δεδομένα, που παρουσιάζουμε στα πρώτα κεφάλαια, αναφέρεται σε μια εταιρεία που ενδιαφέρεται να γνωρίζει ποιοι από τους υπαλλήλους που θα επιλέξει για να τους εκπαιδεύσει, θα παραμείνουν στην εταιρεία ως υπάλληλοι και δε θα χρησιμοποιήσουν την εκπαίδευση για να βρουν μια άλλη εργασία. Η επικρατούσα κλάση που αφορά τους υπαλλήλους που παραμένουν στην εταιρεία έχει ένα ποσοστό 75% από το σύνολο δεδομένων και η περίπτωση αυτή θεωρείται ως ένας ήπιος βαθμός ανισορροπίας του συνόλου. Η έρευνα στην οποία θα προβούμε θα εστιάσει στις μεθόδους διαχείρισης μη ισορροπημένων δεδομένων κατηγοριοποίησης. el
heal.abstract In the modern world, the use of Data Science is wide spread in all the scientific fields. Trying to find the most capable algorithm that can almost perfectly evaluate the results for each new dataset is one of the most important and interesting goals of scientists. The purpose of this thesis is to delve into the problem that arises when in a dataset of binary categorization one of the two classes is significantly bigger in number of records compared to the other. This is a problem, because algorithms usually tend to focus on the dominant class, ignoring the smaller class. The application with which we research the theory that is presented in the first chapters, refers to a company that is interested in knowing which of the employees that will be chosen to be educated, will remain in the company as employees and will not use the training courses to find another job. The dominant class, concerning the employees who remain in the company, has a percentage of 75% of the dataset and this case is considered as a mild degree of total imbalance. Our research will be focused on methods for managing imbalanced categorization dataset. en
heal.advisorName Στάμου, Γεώργιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Τζούβελη, Παρασκευή el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών el
heal.academicPublisherID ntua
heal.numberOfPages 103 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα