Ο σκοπός αυτής της διπλωματικής εργασίας είναι η δημιουργία μιας εφαρμογής που θα βοηθά τον χρήστη στην ανάπτυξη και εξειδίκευση οντολογιών. Αυτό το επιτυγχάνει με δύο τρόπους: πρώτον, παρέχει στο χρήστη γραφικό περιβάλλον μέσω του οποίου μπορεί να διαχειρίζεται και να τροποποιεί την οντολογία? και δεύτερον, εφαρμόζοντας τεχνολογίες επεξεργασίας φυσικής γλώσσας και αυτόματης εξαγωγής όρων προτείνει στο χρήστη περιεχόμενο που θα του φανεί χρήσιμο για τον ορισμό νέων κλάσεων.
Το προτεινόμενο περιεχόμενο, που υποβοηθά την διαδικασία ορισμού νέων κλάσεων, δημιουργείται με τον εξής τρόπο: αρχικά γίνεται αναζήτηση σε βάση δεδομένων για εύρεση στιγμιότυπων της κλάσης που θέλουμε να εξειδικεύσουμε. Στη συνέχεια, βρίσκονται οι γλωσσικές περιγραφές αυτών των στιγμιότυπων και δημιουργείται μια Συλλογή Κειμένων. Πάνω σε αυτή την Συλλογή Κειμένων κάνουμε αυτόματη εξαγωγή όρων (όροι που είναι αντιπροσωπευτικοί και συνοψίζουν το νόημα και τις έννοιες που περιέχουν) και τους προτείνουμε στον χρήστη. Η εξαγωγή όρων γίνεται εφαρμόζοντας διάφορες μεθόδους που έχουν προταθεί από την επιστημονική κοινότητα για το σκοπό αυτό (simple term frequency, average term frequency in corpus, TF-IDF, RIDF, Weirdness, C-value, GlossEx, TermEx). Για να εμπλουτίσουμε ακόμα περισσότερο το προτεινόμενο περιεχόμενο, παρέχουμε υποδομή που μπορεί να αντλεί επιπλέον γνώση από δομημένες περιγραφές των στιγμιότυπων, εκτελώντας τα κατάλληλα ερωτήματα στη βάση και επεξεργάζοντας τα αποτελέσματα.
Μέσω του γραφικού περιβάλλοντος που παρέχει η εφαρμογή, ο χρήστης μπορεί να ορίσει νέες κλάσεις της οντολογίας δημιουργώντας απλά ένα σχήμα γράφου και χωρίς να χρειάζεται να γράψει ούτε κώδικα, ούτε εκφράσεις σε OWL. Ο γράφος αυτός αντιστοιχίζεται αυτόματα σε OWL έκφραση και αν περάσει τους ελέγχους ορθότητας, δημιουργείται η καινούργια κλάση. Η εκφραστικότητα που παρέχεται για τον ορισμό των νέων κλάσεων είναι αυτή της OWL EL, που αντιστοιχεί στην γλώσσα Περιγραφικής Λογικής EL++. Επιλέχθηκε η γλώσσα αυτή γιατί η εκφραστικότητά της σε συνδυασμό με τις πολύ καλές υπολογιστικές της ιδιότητες (reasoning σε πολυωνυμικό χρόνο) την καθιστούν ιδιαίτερα δημοφιλή.
Επίσης, μέσω του γραφικού περιβάλλοντος ο χρήστη μπορεί να δει και να τροποποιήσει την εξεταζόμενη οντολογία με τους ακόλουθους τρόπους: οπτικοποίηση της ιεραρχίας των κλάσεων, προβολή των χρησιμοποιούμενων ιδιοτήτων της οντολογίας και δυνατότητα δημιουργίας καινούργιων (Object και Data Properties), διαχείριση των ατόμων (Individuals) της οντολογίας, έλεγχος συνέπειας Βάσης Γνώσης και εκτέλεση Sparql-DL ερωτημάτων.
The goal of this diploma thesis is to develop an application that will help users create or expand ontologies. This is achieved in two ways: firstly, by providing a graphical user interface through which one can manage and modify the ontology, and secondly, by proposing content to the user that will be helpful for the definition of the new classes. This content is created by using natural language processing technologies and automatic term extraction.
Specifically, the procedure for creating this proposed content is this: At first, the database is searched for instances of the class that we want to particularize. Then, we find the linguistic descriptions of these instances and we create a text Corpus. By applying automatic term extraction in this corpus, we find the most important and relevant terms and we propose them to the user. This automatic term extraction is done by applying the most prominent and acceptable methods, proposed by the scientific community for this purpose (simple term frequency, average term frequency in corpus, TF-IDF, RIDF, Weirdness, C-value, GlossEx, TermEx). In order to further enrich the proposed content, we provide infrastructure, for extracting additional knowledge from the semi-structured descriptions of the instances, by executing suitable queries to database and processing the results.
Using the graphical user interface, one can define new classes of the ontology simply by creating a shape of a graph, i.e. without writing code or complicated expressions in some ontology language like OWL. This graph is automatically mapped onto the corresponding OWL expression and if it passes the validation’s tests, then the new class is created and stored. The expressivity provided for the definition of the new class is equivalent to the OWL EL’s expressivity, i.e. the EL++ Description Logic. This DL was chosen, cause due to its expressivity and its excellent computational characteristics (reasoning in polynomial time), it has become very popular.
Furthermore, this application enables users do the following via its graphical user interface: class hierarchy visualization, definition of new classes, visualization of ontology’s properties (Object and Data Properties) and possibility to create new, individuals management, consistency checking, Sparql-DL querying.