Ο όρος Διασυνδεδεμένα Δεδομένα (Linked Data) χρησιμοποιείται για να περιγράψει σύνολα
δεδομένων που έχουν δομηθεί, δημοσιευθεί και συνδεθεί σύμφωνα με τους κανόνες που
όρισε πρώτος ο Tim Berners-Lee. Τα διασυνδεδεμένα δεδομένα αποτελούν σημαντική
πλευρά της εξέλιξης του Ιστού Δεδομένων (Web of Data). Στόχος της παρούσας
διπλωματικής εργασίας είναι η ανάπτυξη μιας web-based εφαρμογής που συλλέγει
ανομοιογενή δεδομένα από ποικίλες πηγές και τα εντάσσει σε χώρους δεδομένων. Η
διαδικασία ολοκλήρωσης περιλαμβάνει τέσσερα κύρια βήματα: συλλογή δεδομένων,
μετασχηματισμό σχήματος, αναγνώριση όμοιων οντοτήτων, αποθήκευση των δεδομένων
και εκτέλεση ερωτημάτων SPARQL στο σχηματισμένο χώρο δεδομένων. Η εφαρμογή
μετατρέπει τα δεδομένα που δεν βρίσκονται σε RDF μορφή σε RDF χρησιμοποιώντας έναν
αλγόριθμο που αγνοεί το σημασιολογικό περιεχόμενο, μεταφράζει διαφορετικά σχήματα σε
ένα ενιαίο τοπικό σχήμα και συνδέει όμοιες οντότητες. Βασίζεται σε ένα απλό περιβάλλον
διεπαφής χρήστη και στα ανοικτού κώδικα εργαλεία R2R Framework και Silk Framework.
Τα εισηγμένα δεδομένα σχηματίζουν διακριτά σύνολα δεδομένων που διαμορφώνουν ένα
χώρο δεδομένων (dataspace) στον οποίο εφαρμόζονται SPARQL ερωτήματα. Η κύρια
συνεισφορά της εφαρμογής είναι η δυνατότητα των χρηστών - με μια σειρά απλών βημάτων
- να συνδυάζουν ετερογενή δεδομένα και να εξάγουν χρήσιμες πληροφορίες από αυτά.
Linked Data is a term used for describing concrete datasets which have been formatted, exposed, published and connected according to the principles that Tim Berners-Lee first defined. Linked Data is a main aspect of the Web of Data evolution. The aim of the thesis is the development of a web-based application which collects different pieces of heterogeneous data from various sources and integrates them. The integration process includes four major steps: data collection, schema transformation, entity – resolution, data storage and SPARQL querying over the dataspace. The application converts non-RDF data to RDF using a content unaware algorithm, translates different schemas into a single local schema and links same entities. It is based on a simple user interface and the open source R2R and Silk Frameworks. The imported pieces of data form different datasets that shape a single data space to which SPARQL queries can be executed. The main contribution of the application is that users are able to combine - with little effort - pieces of heterogeneous data and extract useful information from them.