Ευφυής Σήμανση και Λημματισμός Αρχαίων Ελληνικών Κειμένων

Λιόσσης, Εμμανουήλ Μ.; Liossis, Emmanuel M.

Ευφυής Σήμανση και Λημματισμός Αρχαίων Ελληνικών Κειμένων

Λιόσσης, Εμμανουήλ Μ.; Liossis, Emmanuel M.

URI: https://dspace.lib.ntua.gr/xmlui/handle/123456789/39856
http://dx.doi.org/10.26240/heal.ntua.7059

Ημερομηνία: 2014-12-08

Περίληψη:

Η παρούσα διπλωματική εργασία πραγματεύεται μία γενική μέθοδο σημάνσεως λέξεων κειμένων και ευρέσεως των λημμάτων τους, με εφαρμογή τα αρχαία ελληνικά. Συγκεκριμένα, πρώτον, εκτιμάται το μέρος τού λόγου και η μορφολογία κάθε λέξεως στο κείμενο, δηλαδή αναγνωρίζεται η κλίση της. Δεύτερον, για κάθε μορφή λέξεως στο κείμενο εκτιμάται το λήμμα της, δηλαδή η κανονική της μορφή όπως την βρίσκουμε σ’ ένα λεξικό. Η προσέγγιση δεν στηρίζεται σε αυθαιρέτους κανόνες αλλά σε ευφυείς μεθόδους μηχανικής μαθήσεως. Το σύστημα δεν είναι προσδεδεμένο στα αρχαία ελληνικά αλλά είναι σχεδιασμένο ώστε να μπορεί να εφαρμοσθεί σε όλες τις γλώσσες, ιδιαιτέρως σε αυτές που εμφανίζουν πλουσία μορφολογία όπου υπάρχει δυσκολία επεξεργασίας. Έχουν επιστρατευθεί οι κατάλληλες μεθοδολογίες τεχνολογίας λογισμικού ώστε να αντιμετωπίζεται η κάθε γλώσσα σε αφαιρετικό επίπεδο καθ’ ενιαίο τρόπο. Το σύστημα αυτό είναι το πρώτο στρώμα στο οποίο μπορούν να βασισθούν υπηρεσίες όπως αναζήτηση υψηλής ποιότητος, μηχανική μετάφραση, συστήματα γνώσεων οντοτήτων και σημαντική αναζήτηση.

This thesis presents a general method for labeling words within texts and finding their lemmata. The method is applied to ancient greek. More specifically, first, the part of speech and the inflection type is estimated for each word. Second, for each word form found in the text, the corresponding lemma is estimated, that is, the canonical form of the word as it is typically found in a dictionary. The approach does not rely on arbitrary rules but uses intelligent methods and machine learning. The system is not bound to ancient greek but it is designed in order to be able to serve all languages, especially the ones with rich morphological features, which present the most processing difficulty. The appropriate software engineering methodologies have been employed in order to address each language in an abstract and uniform way. This system is the first layer where higher services can be built upon, such as high quality search, machine translation, entity knowledge systems and semantic search.