Προσαρμοστική διαχείριση και αναζήτηση δεδομένων ευρείας κλίμακας σε κατανεμημένα δυστήματα

Ασίκη, Αθανασία Χ.; Asiki, Athanasia C.

Προσαρμοστική διαχείριση και αναζήτηση δεδομένων ευρείας κλίμακας σε κατανεμημένα δυστήματα

Ασίκη, Αθανασία Χ.; Asiki, Athanasia C.

URI: https://dspace.lib.ntua.gr/xmlui/handle/123456789/6380
http://dx.doi.org/10.26240/heal.ntua.189

Ημερομηνία: 2012-07-03

Περίληψη:

Η αλματώδης αύξηση των δεδομένων που παράγονται και χρησιμοποιούνται από μία πληθώρα εφαρμογών είναι η νέα τάση που παρατηρείται με συνεχώς αυξανόμενο ρυθμό στη ψηφιακή εποχή μας. Η δυνατότητα της διαχείρισης και ανάλυσης δεδομένων μεγάλου όγκου είναι μια βασική απαίτηση που τίθεται τόσο από τους επιστημονικούς και επιχειρησιακούς κλάδους, όσο και από την διαδικτυακή κοινότητα. Η τάση αυτή οδηγεί στην υιοθέτηση κατανεμημένων λύσεων για τη διαχείριση δεδομένων που στοχεύουν στη δημιουργία επεκτάσιμων και ανεκτικών σε σφάλματα υποδομών. Οι υποδομές αυτές συνδυάζουν την ισχύ πολλαπλών αυτόνομων πόρων και εξασφαλίζουν την αποδοτικότερη χρήση τους. Τα δίκτυα ομότιμων κόμβων συνεισφέρουν στο σχεδιασμό μη κεντρικοποιημένων συστημάτων που έχουν την ικανότητα να προσαρμόζονται δυναμικά σε αλλαγές της τοπολογίας τους. Μία σημαντική κατηγορία των δικτύων ομότιμων κόμβων είναι οι δομημένες επικαλύψεις που υλοποιούν Κατανεμημένους Πίνακες Κατακερματισμού. Η αποδοτική αναζήτηση που επιτυγχάνεται σε αυτές τις επικαλύψεις καθιστά τους Κατανεμημένους Πίνακες Κατακερματισμού δημοφιλείς για εφαρμογές διαμοιρασμού περιεχομένου ευρείας κλίμακας. Ο βασικός στόχος της συγκεκριμένης διατριβής είναι η ανάπτυξη τεχνικών διαχείρισης δεδομένων μεγάλου όγκου σε κατανεμημένες υποδομές. Στο πλαίσιο αυτό προτείνονται καινοτόμες τεχνικές για την αποδοτική οργάνωση, δεικτοδότηση, αναζήτηση και ενημέρωση των δεδομένων. Ένα κοινό χαρακτηριστικό των δεδομένων που μελετώνται είναι η χρήση εννοιολογικών ιεραρχιών για την δόμηση των τιμών τους σε διαφορετικά επίπεδα αφαίρεσης. Η αξιοποίηση των εννοιολογικών ιεραρχιών βοηθά σημαντικά στην οργάνωση και την επαναχρησιμοποίηση της πληροφορίας και μπορεί να συνεισφέρει στην αποτελεσματικότερη επεξεργασία ερωτημάτων σύνοψης. Οι προτεινόμενες τεχνικές επιτυγχάνουν την οργάνωση της πληροφορίας κατά τέτοιο τρόπο ώστε να διατηρείται η σημασιολογική πληροφορία που εμπεριέχεται στις ιεραρχίες, ενώ αυτά κατανέμονται στους διαθέσιμους κόμβους ενός Κατανεμημένου Πίνακα Κατακερματισμού. Η επεξεργασία των ερωτημάτων γίνεται με τη χρήση μίας πλήρους κατανεμημένης δομής δεικτοδότησης που επιτρέπει στους κόμβους να αντιλαμβάνονται δυναμικά τις επικρατούσες τάσεις στα ερωτήματα των χρηστών και να προσαρμόζουν αντίστοιχα τη δεικτοδότηση. Επίσης, οι προτεινόμενοι μηχανισμοί επαναδεικτοδότησης είτε προς πιο γενικότερες τιμές ή τιμές μεγαλύτερης λεπτομέρειας μπορούν να εκτελεστούν μεμονωμένα απο κάθε κόμβο για κάθε αποθηκευμένη ιεραρχία, ώστε να βελτιωθεί η απόδοση της επεξεργασίας των ερωτημάτων και να επισπευσθεί η ανάκτηση των αποτελεσμάτων. Ένα άλλο σημαντικό θέμα που εξετάζεται είναι η online ενημέρωση των αποθηκευμένων δεδομένων και η προσθήκη νέων χωρίς να αναστέλεται η λειτουργία του συστήματος. Οι τεχνικές που περιγράφηκαν αξιολογήθηκαν με συνθετικά φορτία ερωτημάτων που ακολουθούν ομοιόμορφες και πολωμένες κατανομές. Επιπρόσθετα, η προσέγγιση αυτή μελετήθηκε για το σενάριο χρήσης ενός Πληροφοριακού Συστήματος μίας Υποδομής Πλέγματος. Για το λόγο αυτό αναπτύχθηκε ένα πλήρως κατανεμημένο σύστημα για τη δημιουργία, επερώτηση και ενημέρωση μεγάλου όγκου ιεραρχικής πληροφορίας προερχόμενης από αυτήν την εφαρμογή και το οποίο μπορεί να θεωρηθεί σαν μία βιώσιμη λύση σε σύγκριση με τα υπάρχοντα συστήματα που αποτελούνται από κεντρικοποιημένες και ιεραρχικές δομές. Οι τεχνικές, που προέκυψαν, επεκτάθηκαν και εμπλουτίστηκαν, ώστε να γίνει εφικτή η διαχείριση δεδομένων που περιγράφονται από εννοιολογικές ιεραρχίες σε πολλαπλές διαστάσεις. Το αποτέλεσμα ήταν η ανάπτυξη των απαραίτητων μηχανισμών και ενός πλήρως λειτουργικού συστήματος που προορίζεται για δεδομένα με την περιγραφόμενη δομή. Ένα σημαντικό στοιχείο που το διαφοροποιεί τη προσέγγιση αυτή από υπάρχουσες λύσεις είναι η άρση του περιορισμού για την υιοθέτηση ενός αυστηρά ορισμένου σχήματος, που πρέπει να ακολουθείται από τα δεδομένα που εισάγονται στο σύστημα. Το προτεινόμενο σύστημα διαχειρίζεται μερικώς δομημένη πληροφορία και οι στρατηγικές αναζήτησης που περιγράφονται επικεντρώνονται κυρίως στην επίλυση ερωτημάτων σύνοψης σε πολλαπλές διαστάσεις. Εκτός από την υιοθέτηση των ιδιαίτερα προσαρμοστικών μηχανισμών αναζήτησης για την εκτέλεση διαδικασιών επαναδεικτοδότησης, μία τεχνική για τον υπολογισμό συνδυασμών από αποθηκευμένες τιμές αναλύεται για τη μερική δημιουργία όψεων σύμφωνα με τις εισερχόμενες ερωτήσεις. Οι τεχνικές αυτές για τη διαχείριση μερικώς δομημένων και πολυδιάστατων δεδομένων εφαρμόστηκαν για το σχεδιασμό ενός συστήματος για σημασιολογική αναζήτηση και ανάκτηση δεδομένων. Το παράδειγμα των Διασυνδεδεμένων Δεδομένων χρησιμοποιείται ευρέως για τη δημοσιοποίηση μεγάλων συλλογών δεδομένων στο Διαδίκτυο και είναι αυτό που μελετάται. Το συγκεκριμένο σύστημα μπορεί να αποτελέσει μία κατανεμημένη πλατφόρμα για την εξυπηρέτηση των αναγκών της ενοποίησης, δεικτοδότησης και επερώτησης δεδομένων που δημοσιεύονται με τη μορφή Διασυνδεδεμένων Δεδομένων.

The tremendous increase of managed data by a variety of applications is a new trend observed more and more in our digital era. The ability to handle and analyse large amounts of data efficiently is a requirement posed strongly by scientific and business disciplines and the Web community. This trend leads to the adoption of distributed solutions for data management aiming at building scalable and fault-tolerant systems combining the power of multiple autonomous resources. Peer-to-Peer networks greatly contribute to the design of decentralized systems capable of dynamically adjusting to changes of their topology. A major class of existing Peer-to-Peer networks is the one referring to structured overlays that implement a Distributed Hash Table (DHTs). The efficient lookup functionality provided by the Distributed Hash Tables has made them popular among Internet-scale applications for content publishing and sharing. The main goal in this dissertation is the development of data management techniques for large-scale data hosted by scattered resources. In this context, novel methodologies for efficient organization, indexing, searching and updating of data are introduced. A common property of the explored data is the use of concept hierarchies, which offer the capability for organizing it at different levels of abstraction. The exploitation of concept hierarchies greatly helps in the organization and reuse of information and contributes to more effective processing of aggregate queries. The proposed techniques enable the organization of such data in a manner that preserves the semantics of the hierarchies, while they assign it among the nodes of a DHT substrate. The applied method for query processing utilizes a distributed indexing scheme allowing peers to dynamically detect the prevailing trends in incoming queries and adapt the indexing granularity. Re-indexing operations towards more general or more detailed levels can be performed individually on a per node basis for each stored hierarchy to improve the performance of the processing and expedite the retrieval of results on variable aggregation levels. Another important aspect addressed in this approach is the support for online updates of stored items and insertions of new ones without impeding the operation of the system. Apart from the evaluation of the proposed techniques with synthetic query workloads following uniform and skewed distributions, this approach is also motivated by the use case of a Grid Information System. A fully decentralized scheme is developed that creates, queries and updates large volumes of hierarchical data on-line and can be considered as a viable solution compared to the traditional information systems comprising of centralized and hierarchical structures. The derived methods are further extended and enhanced to enable the management of data annotated by concept hierarchies in multiple dimensions. The outcome is the implementation of all required mechanisms for a fully functional system handling data following the specific structure. A significant asset of the system differentiating it from existing approaches is the restriction for a global, rigid schema followed by all data is eliminated. The proposed scheme manages partially structured information and search strategies are described, which mainly focus on the resolution of aggregate operations over multiple dimensions. Apart from the adoption of the highly adaptive mechanisms performing re-indexing operations, a technique for the pre-computation of combinations of stored values is analysed for partial materialization of views according to the incoming queries. The introduced techniques for the management of semi-structured, multi-attribute data are also applied in the design of a system for semantic search and retrieval. The paradigm of Linked Data, which is widely used for publishing large datasets from different resources on the Web is studied. The resultant system is a distributed platform that serves the needs for integrating, indexing and querying data published in the form of Linked Data.