HEAL DSpace

Κατανεμημένη αποθήκευση και επερώτηση RDF δεδομένων, μεγάλου όγκου, με χρήση μεθοδολογιών NoSQL και MapReduce

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κοζύρης, Νεκτάριος el
dc.contributor.author Παπαηλίου, Νικόλαος Π. el
dc.contributor.author Papailiou, Nikolaos P. en
dc.date.accessioned 2011-10-21T07:41:55Z
dc.date.available 2011-10-21T07:41:55Z
dc.date.copyright 2011-10-12
dc.date.issued 2011-10-21
dc.date.submitted 2011-10-12
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/5123
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.9530
dc.description 109 σ. el
dc.description.abstract Τα τελευταία χρόνια γίνονται μεγάλες προσπάθειες για την υλοποίηση του στόχου του Semantic Web. Διεθνείς οργανισμοί έχουν ορίσει πρότυπα για όλες τις λειτουργίες που θα πρέπει να εκτελούνται. Βασικό πρότυπο για την αποθήκευση και μεταφορά των δεδομένων είναι το RDF. Σύμφωνα με το RDF τα δεδομένα αποθηκεύονται στην μορφή των triples, subject-predicate-object. Η SparQL είναι η βασική γλώσσα με την οποία μπορούμε να κάνουμε ερωτήσεις και να επεξεργαζόμαστε μια RDF βάση δεδομένων. Το διαδίκτυο αναπτύσσεται συνεχώς και τα δεδομένα που περιέχονται σε αυτό αυξάνονται κάθε μέρα και περισσότερο. Αν θέλουμε να υλοποιήσουμε, λοιπόν, το στόχο του Semantic Web, πρέπει να δημιουργήσουμε συστήματα, τα οποία θα είναι σε θέση να χειριστούν το μεγάλο όγκο δεδομένων του διαδικτύου. Η εργασία μας στοχεύει στη δημιουργία ενός συστήματος αποθήκευσης και επερώτησης τέτοιων RDF δεδομένων, μεγάλου όγκου. Σύγχρονη τάση, στις βάσεις δεδομένων, αποτελούν οι NoSQL βάσεις, οι οποίες δεν βασίζονται στη γλώσσα SQL και είναι κυρίως column stores. Η HBase είναι μια τέτοια βάση η οποία είναι κατανεμημένη και αποθηκεύει τα δεδομένα της ταυτόχρονα σε πολλούς υπολογιστές. Έρευνες έχουν δείξει ότι, η HBase μπορεί να αποθηκεύσει τεράστιους πίνακες και να έχει αποδοτική πρόσβαση σε αυτούς. Το MapReduce είναι μια καινούργια τεχνική παραλληλοποίησης, που έχει κερδίσει τεράστιο έδαφος και χρησιμοποιείται, σε μεγάλο βαθμό, για την παραλληλοποίηση εργασιών. Δημιουργήσαμε, λοιπόν, ένα σύστημα αποθήκευσης των RDF δεδομένων σε 3 διαφορετικά index της HBase. Τα 3 index μας επιτρέπουν να απαντάμε αποδοτικά σε όλους τους συνδυασμούς ερωτημάτων SparQL. Για την εκτέλεση των ερωτημάτων SparQL, χρησιμοποιήσαμε άπληστο αλγόριθμο επιλογής του πλάνου εκτέλεσης των join. Ακόμα, υλοποιήσαμε MapReduce προγράμματα για την κατανεμημένη εκτέλεση των SparQL join. Χρησιμοποιήσαμε το MapReduce για την εισαγωγή των RDF δεδομένων στα index της HBase. Τέλος, δείχνουμε ότι το σύστημά μας είναι κλιμακώσιμο και μπορεί να ανταποκριθεί στον μεγάλο όγκο των δεδομένων. el
dc.description.abstract Recently, researchers are making great efforts to achieve the objective of the Semantic Web. International organizations have set standards for all the needed functionality. Basic standard for storing and transporting data is RDF. According to RDF, data is stored in the form of triples, subject-predicate-object. SparQL is the basic query language for processing an RDF database. Internet is growing continuously and the data contained in it, grow larger every day. Therefore, if we want to achieve the objective of Semantic Web, we must create systems that will be able to handle the large volume of Internet data. Our work aims to create a system for storing and querying, such, huge RDF datasets. Modern trend in the databases are the NoSQL bases, which do not implement SQL language and are mainly distributed column stores. HBase is such a base, which is distributed and stores data on multiple computers simultaneously. Studies have shown that HBase can store huge tables and provides efficient access to them. MapReduce is a new parallelization technique that has gained enormous ground and is used largely for the parallelization of several tasks. In this work, we created a system of storing RDF data in 3 different HBase indexes. The 3 index schema allows us to respond efficiently to all combinations of SparQL queries. To answer SparQL queries, we used a greedy algorithm for choosing the execution plan of joins. Furthermore, we implemented MapReduce jobs for distributed execution, of SparQL joins. We, also, used MapReduce jobs to insert the RDF data into the indexes of HBase. Finally, we show that our system is scalable and can meet the chalenge of huge RDF datasets. en
dc.description.statementofresponsibility Νικόλαος Π. Παπαηλίου el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Κατανεμημένη αποθήκευση el
dc.subject Αποθήκευση el
dc.subject Επερώτηση el
dc.subject RDF δεδομένα el
dc.subject Παραλληλοποίηση el
dc.subject RDF en
dc.subject SparQL en
dc.subject Hadoop en
dc.subject MapReduce en
dc.subject Hbase en
dc.subject NoSQL en
dc.subject Jena en
dc.subject LUBM en
dc.subject Semantic Web en
dc.title Κατανεμημένη αποθήκευση και επερώτηση RDF δεδομένων, μεγάλου όγκου, με χρήση μεθοδολογιών NoSQL και MapReduce el
dc.title.alternative Distributed storage and querying, of huge RDF data, using NoSQL and MapReduce en
dc.type bachelorThesis el (en)
dc.date.accepted 2011-10-02
dc.date.modified 2011-10-12
dc.contributor.advisorcommitteemember Σελλής, Τιμολέων el
dc.contributor.advisorcommitteemember Τσανάκας, Τσανάκας el
dc.contributor.committeemember Κοζύρης, Νεκτάριος el
dc.contributor.committeemember Σελλής, Τιμολέων el
dc.contributor.committeemember Τσανάκας, Παναγιώτης el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
dc.date.recordmanipulation.recordcreated 2011-10-21
dc.date.recordmanipulation.recordmodified 2011-10-21


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής