Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη της εφαρμογής ολοκλήρωσης ετερογενών δεδομένων υγείας IntegraHEALTH 1.0. Η εφαρμογή αυτή λαμβάνει τα αποθηκευμένα δεδομένα ενός συνόλου ιατρών και τα μετατρέπει από τις αρχικές μορφές τους (σχεσιακή βάση δεδομένων, αρχεία ιατρικών προτύπων DICOM και HL7) σε μια ενιαία μορφή, ώστε να τους υποβάλλονται με ευκολία ερωτήματα.
Η εφαρμογή είναι γραμμένη σε γλώσσα Java και χρησιμοποιεί τεχνολογίες Σημασιολογικού Ιστού μέσω του προγραμματιστικού πλαισίου Jena. Τα δεδομένα μετατρέπονται σε προτάσεις του μοντέλου δεδομένων RDF, ενώ χρησιμοποιούνται στοιχεία από τις γλώσσες Σημασιολογικού Ιστού RDFS και OWL. Η μετατροπή γίνεται μέσω αντιστοιχίσεων των δεδομένων σε όρους λεξιλογίων που ονομάζονται οντολογίες. Τη διαδικασία αναλαμβάνουν κλάσεις Java και το ανεξάρτητο εργαλείο D2RQ.
Τα RDF δεδομένα υφίστανται διαδικασίες συλλογιστικής και αποθηκεύονται σε ειδικά διαμορφωμένες βάσεις (triple stores), οι οποίες δημοσιεύονται μέσω του Joseki RDF Server σε τελικά σημεία SPARQL. Ο χρήστης υποβάλλει ομόσπονδα ερωτήματα σε γλώσσα SPARQL τα οποία απευθύνονται σε όλα τα διαθέσιμα σημεία μέσω του ανεξάρτητου εργαλείου FedX, το οποίο απαντάει με τέτοιο τρόπο ώστε να δίνεται στο χρήστη η αίσθηση της ύπαρξης μίας μοναδικής δεξαμενής δεδομένων.
The aim of this diploma thesis is to develop the heterogeneous healthcare data integration application IntegraHEALTH 1.0. This application receives the stored data from a set of doctors and transforms them from their original formats (relational database, DICOM and HL7 file formats) into a global one, in order for queries to be easily submitted to them.
The application is developed using the Java programming language as well as Semantic Web technologies through the Jena programming framework. The data are transformed in RDF model statements, and elements from the Semantic Web languages RDFS and OWL are used. The transformation is done through matching the data against the terms of vocabularies called ontologies. That procedure is being carried out by Java classes and the independent tool D2RQ.
The RDF data undergo reasoning procedures and are stored in specially formatted databases called triple stores, which are being published through the Joseki RDF Server in SPARQL endpoints. The user submits federated queries using the SPARQL language which are directed towards every available endpoint using the independent tool FedX, which responds in such a way that the user is given the illusion of the existence of only one global data repository.