heal.abstract |
Ο στόχος της παρούσας διπλωματικής είναι η διερεύνηση και η αξιολόγηση αλγορίθμων
μηχανικής μάθησης για την ταξινόμηση βιογραφικών σημειωμάτων ανάλογα με το
περιεχόμενό τους. Τα βιογραφικά σημειώματα προέρχονται από διαφορετικές πηγές και
καταλήγουν στον υπεύθυνο ανθρώπινου δυναμικού ο οποίος καλείται να τα
κατηγοριοποιήσει τόσο ως προς την ειδικότητα του υποψηφίου όσο και ως προς την
καταλληλότητά του για την εκάστοτε θέση εργασίας. Η παρούσα διπλωματική εργασία
στοχεύει πρωτίστως στο σχεδιασμό κατάλληλης μεθοδολογίας για την υποβοήθηση
αυτής της διαδικασίας.
Σε αυτό το πλαίσιο, γνωστοί αλγόριθμοι επιβλεπόμενης μάθησης όπως οι Naïve Bayes,
Decision Trees, Random Forest και Support Vector Model χρησιμοποιούνται για να
δημιουργηθούν μοντέλα πρόβλεψης. Επιπλέον, στο πλαίσιο της διερεύνησης του
συνόλου δεδομένων, εφαρμόζεται και η τεχνική συσταδοποίησης, με τον αλγόριθμο
K-means. Προτού εφαρμοστούν οι παραπάνω αλγόριθμοι, τα δεδομένα πρέπει να
προεπεξεργαστούν ώστε να μετατραπούν από απλά κείμενα σε διανύσματα
συγκεκριμένου μεγέθους χαρακτηριστικών. Τα χαρακτηριστικά αποτελούνται από λέξεις
που περιέχουν πληροφορία σχετικά με την κατηγορία του βιογραφικού. Ωστόσο, πολλά
από αυτά τα χαρακτηριστικά δε διαθέτουν σημαντικές πληροφορίες για το περιεχόμενο
του κειμένου. Για το λόγο αυτό, εφαρμόζονται ειδικές μέθοδοι για εξαγωγή
χαρακτηριστικών προκειμένου να διατηρηθούν μόνο τα σημαντικά χαρακτηριστικά των
κειμένων. Έπειτα, ο κάθε αλγόριθμος εφαρμόζεται σε ένα σύνολο δεδομένων ελέγχου
προκειμένου να γίνει αξιολόγηση του μοντέλου.
Πέραν του πειραματικού μέρους της διπλωματικής εργασίας, παρουσιάζονται
λεπτομερώς τόσο τα επιμέρους επιστημονικά πεδία στα οποία εντάσσεται η παρούσα
εργασία, όσο και οι αλγόριθμοι και οι τεχνικές που χρησιμοποιήθηκαν. |
el |