HEAL DSpace

Διαχείριση Πληροφορίας και Αβεβαιότητας σε Περιβάλλον Πολλαπλών Ετερογενών Πηγών Πληροφόρησης.

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Βασιλακόπουλος, Άγγελος el
dc.contributor.author Vasilakopoulos, Angelos en
dc.date.accessioned 2014-12-09T10:29:33Z
dc.date.available 2014-12-09T10:29:33Z
dc.date.issued 2014-12-09
dc.identifier.uri http://dspace.lib.ntua.gr/xmlui/handle/123456789/39872
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.1361
dc.rights Default License
dc.subject Βάσεις Δεδομένων el
dc.subject Αβέβαια Δεδομένα el
dc.subject Γενεαλογία Δεδομένων el
dc.subject Περιεκτικότα Ερωτημάτων el
dc.subject Ανταλλαγή Δεδομένων el
dc.subject Databases en
dc.subject Uncertain Data en
dc.subject Data Lineage en
dc.subject Query Containment en
dc.subject Data Exchange en
dc.title Διαχείριση Πληροφορίας και Αβεβαιότητας σε Περιβάλλον Πολλαπλών Ετερογενών Πηγών Πληροφόρησης. el
heal.type doctoralThesis
heal.secondaryTitle Information and Uncertainty Management in an Environment with Multiple Heterogeneous Data Information Sources en
heal.classification Databases en
heal.classification ΣΧΕΣΙΑΚΕΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ el
heal.classificationURI http://localhost:8080/healp/data/3/8/5
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2014-10-21
heal.abstract Η συγκεκριμένη διατριβή αφορά τη μελέτη πέντε προβλημάτων για βάσεις δεδομένων με αβεβαιότητα και γενεαλογία. Ειδικότερα ξεκινά με την ανάλυση και μελέτη του προβλήματος της περιεκτικότητας και ισοδυναμίας ερωτημάτων (query containment and equivalence) για βάσεις δεδομένων αυτού του είδους. Παρουσιάζονται και ορίζονται πέντε νέα είδη σημασιολογίας της περιεκτικότητας βάσεων δεδομένων με αβεβαιότητα και γενεαλογία. Αποδεικνύεται πως η πολυπλοκότητα του προβλήματος περιεκτικότητας ερωτημάτων για βάσεις δεδομένων με αβεβαιότητα και γενεαλογία και συνεκτικές επερωτήσεις (conjunctive queries) και ενώσεις τους παραμένει όπως και στις κλασσικές βάσεις NP-Complete και για τα πέντε νέα είδη σημασιολογίας της περιεκτικότητας. Αποδεικνύεται πως το ίδιο ισχύει και για της ισοδυναμία ερωτημάτων για τα πρώτα δύο είδη περιεκτικότητας, ενώ για τα τελευταία τρία η πολυπλοκότητα είναι Graph-Isomorphism-complete. Έπειτα γίνεται ανάλυση και μελέτη του προβλήματος της ανταλλαγής δεδομένων (data exchange) για βάσεις δεδομένων με αβεβαιότητα και γενεαλογία. Παρουσιάζεται και ορίζεται μια νέα λογική σημασιολογία βέβαιων απαντήσεων (certain answers) για αυτές τις βάσεις. Παρουσιάζεται ένας νέος u-chase αλγόριθμος που επεκτείνει τον υπάρχοντα chase αλγόριθμο που αφορά κλασσικές βάσεις. Αποδεικνύεται πως ο νέος u-chase μπορεί να χρησιμοποιηθεί για την απάντηση συνεκτικών επερωτήσεων με πολυπλοκότητα υπολογισμού βέβαιων απαντήσεων η οποία παραμένει χαμηλή πολυωνυμικού χρόνου (Ptime) όπως και στις κλασσικές βάσεις όταν το σύνολο απεικονίσεων μεταξύ αρχικού και τελικού σχήματος είναι ένα αδυνάμως ακυκλικό σύνολο περιορισμών δημιουργίας tuples (tuple generating dependencies- tgds). Αποδεικνύεται επιπλέον πως αν έχουμε απεικονίσεις τελικού σχήματος που παράγουν ισότητες (equality generating dependencies - egds) τότε το πρόβλημα query answering για ανταλλαγή δεδομένων με αβεβαιότητα και γενεαλογία έχει αυξημένη πολυπλοκότητα NP-hard. Στη συνέχεια γίνεται ανάλυση και μελέτη του προβλήματος της απάντησης συνεκτικών επερωτήσεων πάνω σε βάσεις δεδομένων με αβεβαιότητα και γενεαλογία με προσάρτηση βαθμών αβεβαιότητας που προέρχονται από μια ενδεχομενική κατανομή (possibility distribution). Αποδεικνύεται ότι το μοντέλο για βάσεις δεδομένων με αβεβαιότητα και γενεαλογία με προσάρτηση βαθμών αβεβαιότητας που προέρχονται από μια ενδεχομενική κατανομή είναι κλειστό για συνεκτικές επερωτήσεις, σε λύση του προβλήματος προηγούμενων αποτελεσμάτων που δείχνουν ότι η ενδεχομενική κατανομή σε αβέβαιες βάσεις (χωρίς γενεαλογία) δεν είναι κλειστή για συνεκτικές επερωτήσεις. Αποδεικνύεται ότι στο μοντέλο βάσεων δεδομένων με αβεβαιότητα και γενεαλογία με προσάρτηση βαθμών αβεβαιότητας που προέρχονται από μια ενδεχομενική κατανομή οι απαντήσεις σε συνεκτικές επερωτήσεις μπορεί να γίνει με χαμηλή πολυωνυμίκη πολυπλοκότητα (Ptime) σε αντίθεση με την υψηλή πολυπλοκότητα #P της υπάρχουσας βιβλιογραφίας στην οποία γίνεται χρήση του πιθανοτικού μοντέλο για τους βαθμούς αβεβαιότητας. Το τέταρτο πρόβήμα που μελετάται αφορά την ανάλυση και μελέτη του προβλήματος του αποτελεσματικού (efficient) υπολογισμού συνενοτικών επερωτημάτων (aggregate queries) και συγκεκριμένα απαντήσεις για το άθροισμα SUM πάνω σε δεδομένα μεγάλου όγκου (big data), κάνοντας χρήση μιας μικρής χρήσιμης γενεαλογίας αντί των πολύ μεγάλων αρχικών δεδομένων. Παρουσιάζεται ο Αλγόριθμος Comp-Lineage που υπολογίζει σε χρόνο πολυωνυμικό μια Aggregate Lineage με μικρό μέγεθος που είναι ανεξάρτητο του μεγέθους των αρχικών δεδομένων. Αποδεικνύεται ότι η μικρή αυτή Aggregate Lineage μπορεί να χρησιμοποιηθεί για την καλή προσέγγιση οποιασδήποτε SUM επερώτησης της οποίας η απάντηση-άθροισμα είναι μεγάλη, με χρονική πολυπλοκότητα που σχετίζεται με το μικρό της Lineage και άρα ανεξάρτητη με το μεγάλο μέγεθος των αρχικών δεδομένων. Τέλος γίνεται ανάλυση, μελέτη και προγραμματιστική υλοποίηση σε παράλληλο περιβάλλον MapReduce του προβλήματος υπολογισμού της διμερούς σύζευξης (2-way Join) για μεγάλα δεδομένα (big data) που μπορεί να έχουν ανισομερή κατανομή (data skew). Παρουσιάζεται ένας νέος αλγόριθμος, κατάλληλος για το περιβάλλον του MapReduce, o oποίος αφορά το πρόβλημα του υπολογισμού της διμερούς σύζευξης (2-way Join) και μπορεί να διαχειριστεί αποτελεσματικά το data skewness σε αντίθεση με τις υπάρχουσες υλοποιήσεις. Αποδεικνύεται ότι ο αλγόριθμος που παρουσιάζεται έχει το ελάχιστο δυνατό κόστος επικοινωνίας. Επιπλέον γίνεται προγραμματιστική υλοποίηση σε Java/Hadoop του αλγορίθμου με πειράματα που επαληθεύουν το θεωρητικό ελάχιστο κόστος επικοινωνίας. el
heal.abstract In this thesis we investigate five problems of databases with uncertainty and lineage. We start with the analysis for those databases of the query containment and query equivalence problems. We present and define five new kinds of semantics for database containment with uncertainty and lineage. We prove that the complexity of query containment for databases with uncertainty and lineage for conjunctive queries (CQs) and for Unions of conjunctive queries (UCQs) remains NP-complete as it is with ordinary databases for all five new kinds of containment semantics. We prove that the complexity of query equivalence for databases with uncertainty and lineage for CQs and UCQs is also NP-complete for the first two kinds of ULDB database containment and Graph-Isomorphism-complete for the last three. Finally we define five new ``equality'' semantics of ULDB containment and we show that they are important for ULDB data integration purposes. The complexity of checking conjunctive query containment under all these five kinds of ``equality'' ULDB containment is NP-complete. Further we study and analyse the data exchange problem for databases with uncertainty and lineage. We present and define new logical semantics of certain answers for data with uncertainty and lineage. We present a new u-chase algorithm that extends the known chase algorithm which is about ordinary databases. We prove that the new u-chase algorithm can be used for query answering for conjunctive queries with the complexity of computing certain answers that remains low, i.e. polynomial time (Ptime), as with ordinary databases when the set of dependencies between the source and the target schema is a weakly cyclic set of tuple generating dependencies- tgds. We prove that when we also have target equality generating dependencies (egds) then the problem of query answering for databases with uncertainty and lineage becomes NP-hard (in contrast with ordinary databases). We next study and analyse the problem of query computing for conjunctive queries for databases with uncertainty and lineage when we attach belief values to uncertain data that come from a possibility distribution. We prove that the model of databases with uncertainty and lineage and with possibilistic values is closed for conjunctive queries. This result solves the problem of previous results that show that models with uncertainty and possibilities (but no lineage) are not closed for conjunctive queries. We prove that in the model of databases with uncertainty and lineage and possibilities we can compute conjunctive queries (along with their possibility values) with low polynomial complexity (Ptime) in contrast with the high complexity #P of existing approaches where uncertainty values are probabilistic. The fourth problem that we study is the problem of how to efficiently compute aggregate queries and specifically SUM queries, posed on big data. We use a small useful lineage instead of the initial big data. We present a new Algorithm Comp-Lineage which computes in polynomial time an Aggregate Lineage with small size that is independent of the size of the initial big data. We prove that this small Aggregate Lineage can be used to approximate well any SUM query whose value is large, with time complexity that depends only on the small size of the Aggregate Lineage and hence independent with the large size of the initial big data. Finally we study, analyse and implement in the parallel environment MapReduce the computation of 2-Way Joins for big data that may also be skewed. We present a new algorithm, suitable for MapReduce, which computes 2-Way Joins and can efficiently handle data skewness in contrast with existing algorithms. We prove that our algorithm matches the lower communication cost bound. We further implement in Java/Hadoop of our algorithm with experiments whose communication cost verifies the theoretical cost. en
heal.advisorName Αφράτη, Φώτω el
heal.committeeMemberName Αφράτη, Φώτω el
heal.committeeMemberName Βασιλείου, Ιωάννης el
heal.committeeMemberName Γεργατσούλης, Μανόλης el
heal.committeeMemberName Παπασπύρου, Νικόλαος el
heal.committeeMemberName Φωτάκης, Δημήτριος el
heal.committeeMemberName Καράλη, Ιζαμπώ el
heal.committeeMemberName Σταματόπουλος, Παναγιώτης el
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 180
heal.fullTextAvailability true


Files in this item

This item appears in the following Collection(s)

Show simple item record