HEAL DSpace

Διαχείριση Δεδομένων σε Κατανεμημένα Συστήματα Μεγάλης Κλίμακας για Χρήση σε Εφαρμογές Αναλυτικής Επεξεργασίας

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κοζύρης, Νεκτάριος el
dc.contributor.author Δόκα, Αικατερίνη Γ. el
dc.contributor.author Doka, Aikaterini G. en
dc.date.accessioned 2011-06-23T09:29:28Z
dc.date.available 2011-06-23T09:29:28Z
dc.date.copyright 2011-06-02 -
dc.date.issued 2011-06-23
dc.date.submitted 2011-06-02 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/4598
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.296
dc.description 220 σ. el
dc.description.abstract Ο αυξανόμενος όγκος των δεδομένων που συλλέγεται και παράγεται από επιχειρηματικά και ακαδημαϊκά πληροφοριακά συστήματα έχει δημιουργήσει νέες απαιτήσεις από τις πλατφόρμες διαχείρισης δεδομένων, ώστε να είναι δυνατή η εξόρυξη χρήσιμης πληροφορίας και η εκμετάλλευσή της για τη λήψη αποφάσεων. Πέρα από την καλά τεκμηριωμένη ανάγκη για ασύγχρονη ανάλυση, η όσο το δυνατόν αμεσότερη απόκριση τέτοιων συστημάτων είναι σημαντική για μια πληθώρα εφαρμογών, καθιστώντας την ανάλυση πραγματικού χρόνου πιο αναγκαία από ποτέ. Σε τέτοιου είδους εφαρμογές, τα δεδομένα συνήθως χαρακτηρίζονται από μια χρονική διάσταση και παρουσιάζονται σε διάφορα επίπεδα λεπτομέρειας. Χιλιάδες ή και εκατομμύρια τέτοιες εγγραφές δημιουργούνται ανά δευτερόλεπτο, και τα σύγχρονα συστήματα πρέπει να είναι σε θέση να τα επεξεργάζονται. Η παρούσα διατριβή ασχολείται με τη διερεύνηση και ανάπτυξη συστημάτων για την αποθήκευση, δεικτοδότηση και αποδοτική αναζήτηση πολυδιάστατων δεδομένων που χρησιμοποιούνται για εφαρμογές αναλυτικής επεξεργασίας σε μεγάλης κλίμακας κατανεμημένα συστήματα. Τα συστήματα αυτά βασίζονται σε μια αρχιτεκτονική χωρίς κοινόχρηστους πόρους, όπου γεωγραφικά απομακρυσμένοι χρήστες μπορούν, χωρίς τη χρήση κάποιου εξειδικευμένου εργαλείου, να διαμοιράζονται και να αναζητούν πληροφορίες. Το πρώτο σύστημα που δημιουργήθηκε σε αυτήν την κατεύθυνση, το HiPPIS, υποστηρίζει εννοιολογικές ιεραρχίες σε δίκτυα κατακερματισμού πινάκων (DHT) με σκοπό την αποθήκευση ιστορικών δεδομένων σε διάφορα επίπεδα λεπτομέρειας. Υιοθετώντας έναν αλγόριθμο που προσαρμόζει το επίπεδο δεικτοδότησης ανάλογα με τη λεπτομέρεια των εισερχόμενων ερωτημάτων χωρίς πρότερη γνώση του, μεγιστοποιεί την επίδοση ελαχιστοποιώντας το κόστος επικοινωνίας και προσφέροντας εξισορρόπηση φόρτου. Επεκτείνοντας την ιδέα αυτή και με στόχο την εκμετάλλευση προϋπολογισμένων υλοποιημένων όψεων, κατανέμεται μια γνωστή και ιδιαίτερα αποδοτική κεντρική κυβική δομή σε ένα δίκτυο διασυνδεδεμένων κόμβων. Το σύστημα που προέκυψε, το Brown Dwarf, επιταχύνει όλες τις λειτουργίες του κύβου, επιβάλλοντας παραλληλοποίηση, ενώ δίνει ιδιαίτερη έμφαση στη διασφάλιση της ελαστικότητας και της ανοχής σε σφάλματα, ιδιοτήτων ιδιαίτερα σημαντικών σε κατανεμημένα περιβάλλοντα. Τέλος, προτείνεται και υλοποιείται ένα ολοκληρωμένο σύστημα διαχείρισης χρονικών δεδομένων, που συνδυάζει μια ισχυρή μηχανή δεικτοδότησης τεράστιου όγκου δεδομένων και διαχείρισης ενημερώσεων σε (σχεδόν) πραγματικό χρόνο με μια κατανεμημένη αρχιτεκτονική που προσφέρει δυνατότητα κλιμάκωσης και διαθεσιμότητα σε χαμηλό κόστος. el
dc.description.abstract The increasing size of the data collected and generated by industrial and academic information systems has created new sets of demands from data management platforms. Besides the well-documented need for offline analytics, the requirement to immediately detect interesting trends is ever-growing, rendering real-time analytics a necessity. In such applications, data are usually determined by a temporal aspect and presented at different levels of granularity. Thousands or millions of such records are produced per second and modern systems are expected to be able to both incorporate and process them. This thesis deals with the storage, indexing and querying of multidimensional data used for analytical processing in large scale distributed systems and aims to create an always-on, real-time data access and support system. To that end, the basic requirements of such a system are studied and identified: Powerful data processing and high-rate updates. Existing methodologies inadvertently fail to simultaneously meet both these requirements. To alleviate the problem, techniques from the field of distributed data management and data warehousing are applied in order to disseminate, query and update high volumes of multidimensional data characterized by hierarchies. The goal is to maintain the best of both worlds: Powerful indexing/analytics engine for immense volumes of data both over historical and real-time incoming updates and a shared-nothing architecture that ensures scalability and availability at low cost. Geographically spanned users, without the use of any proprietary tool, can share information that arrives from distributed locations at a high rate and query it in different levels of granularity. The research process towards this goal starts with HiPPIS, a system that supports concept hierarchies in DHTs, in order to store historical data in various levels of granularity. The resulting system, HiPPIS, greatly simplifies the insertion and update operations due to the lack of data pre-processing. Moreover, it employs an adaptive scheme that automatically adjusts the level of indexing according to the granularity of the incoming queries, without assuming any prior knowledge of the workload. In an attempt to include an a-priori consideration for group-by queries, as well as to explicitly deal with the query performance versus variable data availability or load skew, a well known, highly effective centralized structure is distributed over an unstructured network of interconnected commodity nodes on-the-fly, reducing cube creation and query times by enforcing parallelization. Brown Dwarf performs online querying and updating and employs an adaptive replication scheme that adjusts to sudden shifts in workload skew as well as network churn by expanding or shrinking the units of the distributed data structure. Thus, the system ensures elasticity of resources and content availability. Finally, to improve the handling of time series data, namely data determined by a temporal aspect, HORAE is proposed, a system that employs a hybrid solution for data storage and processing: High-rate updates and queries targeting the most recent items are handled by a DHT-based system that enables fast insertion times and multidimensional indexing. The large bulk of the data is handled through a distributed data cube structure that adaptively materializes and replicates according to demand. The two components seamlessly integrate to offer the advantages of powerful aggregate data processing along with scalability and elasticity of commodity resources. en
dc.description.statementofresponsibility Αικατερίνη Γ. Δόκα el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Κατανεμημένα Συστήματα el
dc.subject Αποθήκες δεδομένων el
dc.subject Αναλυτική Επεξεργασία el
dc.subject Συστήματα Ομότιμων Κόμβων el
dc.subject Κύβος δεδομένων el
dc.subject Distributed Systems en
dc.subject Data Warehousing en
dc.subject Analytical Processing en
dc.subject Peer-to-Peer Systems en
dc.subject Data Cubes en
dc.title Διαχείριση Δεδομένων σε Κατανεμημένα Συστήματα Μεγάλης Κλίμακας για Χρήση σε Εφαρμογές Αναλυτικής Επεξεργασίας el
dc.title.alternative Data Management in Large Scale Distributed Systems for Analytical Processing Applications en
dc.type doctoralThesis el (en)
dc.date.accepted 2011-04-28 -
dc.date.modified 2011-06-02 -
dc.contributor.advisorcommitteemember Τσανάκας, Παναγιώτης el
dc.contributor.advisorcommitteemember Σελλής, Τιμολέων el
dc.contributor.committeemember Κοζύρης, Νεκτάριος el
dc.contributor.committeemember Τσανάκας, Παναγιώτης el
dc.contributor.committeemember Σελλής, Τιμολέων el
dc.contributor.committeemember Κουμπαράκης, Μανόλης el
dc.contributor.committeemember Παπασπύρου, Νικόλαος el
dc.contributor.committeemember Κωτίδης, Ιωάννης el
dc.contributor.committeemember Ιωαννίδης, Ιωάννης el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστήμάτων el
dc.date.recordmanipulation.recordcreated 2011-06-23 -
dc.date.recordmanipulation.recordmodified 2011-06-23 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής