dc.contributor.advisor |
Κοζύρης, Νεκτάριος |
el |
dc.contributor.author |
Δόκα, Αικατερίνη Γ.
|
el |
dc.contributor.author |
Doka, Aikaterini G.
|
en |
dc.date.accessioned |
2011-06-23T09:29:28Z |
|
dc.date.available |
2011-06-23T09:29:28Z |
|
dc.date.copyright |
2011-06-02 |
- |
dc.date.issued |
2011-06-23 |
|
dc.date.submitted |
2011-06-02 |
- |
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/4598 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.296 |
|
dc.description |
220 σ. |
el |
dc.description.abstract |
Ο αυξανόμενος όγκος των δεδομένων που συλλέγεται και παράγεται από επιχειρηματικά και ακαδημαϊκά πληροφοριακά συστήματα έχει δημιουργήσει νέες απαιτήσεις από τις πλατφόρμες διαχείρισης δεδομένων, ώστε να είναι δυνατή η εξόρυξη χρήσιμης πληροφορίας και η εκμετάλλευσή της για τη λήψη αποφάσεων. Πέρα από την καλά τεκμηριωμένη ανάγκη για ασύγχρονη ανάλυση, η όσο το δυνατόν αμεσότερη απόκριση τέτοιων συστημάτων είναι σημαντική για μια πληθώρα εφαρμογών, καθιστώντας την ανάλυση πραγματικού χρόνου πιο αναγκαία από ποτέ. Σε τέτοιου είδους εφαρμογές, τα δεδομένα συνήθως χαρακτηρίζονται από μια χρονική διάσταση και παρουσιάζονται σε διάφορα επίπεδα λεπτομέρειας. Χιλιάδες ή και εκατομμύρια τέτοιες εγγραφές δημιουργούνται ανά δευτερόλεπτο, και τα σύγχρονα συστήματα πρέπει να είναι σε θέση να τα επεξεργάζονται.
Η παρούσα διατριβή ασχολείται με τη διερεύνηση και ανάπτυξη συστημάτων για την αποθήκευση, δεικτοδότηση και αποδοτική αναζήτηση πολυδιάστατων δεδομένων που χρησιμοποιούνται για εφαρμογές αναλυτικής επεξεργασίας σε μεγάλης κλίμακας κατανεμημένα συστήματα. Τα συστήματα αυτά βασίζονται σε μια αρχιτεκτονική χωρίς κοινόχρηστους πόρους, όπου γεωγραφικά απομακρυσμένοι χρήστες μπορούν, χωρίς τη χρήση κάποιου εξειδικευμένου εργαλείου, να διαμοιράζονται και να αναζητούν πληροφορίες.
Το πρώτο σύστημα που δημιουργήθηκε σε αυτήν την κατεύθυνση, το HiPPIS, υποστηρίζει εννοιολογικές ιεραρχίες σε δίκτυα κατακερματισμού πινάκων (DHT) με σκοπό την αποθήκευση ιστορικών δεδομένων σε διάφορα επίπεδα λεπτομέρειας. Υιοθετώντας έναν αλγόριθμο που προσαρμόζει το επίπεδο δεικτοδότησης ανάλογα με τη λεπτομέρεια των εισερχόμενων ερωτημάτων χωρίς πρότερη γνώση του, μεγιστοποιεί την επίδοση ελαχιστοποιώντας το κόστος επικοινωνίας και προσφέροντας εξισορρόπηση φόρτου.
Επεκτείνοντας την ιδέα αυτή και με στόχο την εκμετάλλευση προϋπολογισμένων υλοποιημένων όψεων, κατανέμεται μια γνωστή και ιδιαίτερα αποδοτική κεντρική κυβική δομή σε ένα δίκτυο διασυνδεδεμένων κόμβων. Το σύστημα που προέκυψε, το Brown Dwarf, επιταχύνει όλες τις λειτουργίες του κύβου, επιβάλλοντας παραλληλοποίηση, ενώ δίνει ιδιαίτερη έμφαση στη διασφάλιση της ελαστικότητας και της ανοχής σε σφάλματα, ιδιοτήτων ιδιαίτερα σημαντικών σε κατανεμημένα περιβάλλοντα.
Τέλος, προτείνεται και υλοποιείται ένα ολοκληρωμένο σύστημα διαχείρισης χρονικών δεδομένων, που συνδυάζει μια ισχυρή μηχανή δεικτοδότησης τεράστιου όγκου δεδομένων και διαχείρισης ενημερώσεων σε (σχεδόν) πραγματικό χρόνο με μια κατανεμημένη αρχιτεκτονική που προσφέρει δυνατότητα κλιμάκωσης και διαθεσιμότητα σε χαμηλό κόστος. |
el |
dc.description.abstract |
The increasing size of the data collected and generated by industrial and academic information systems has created new sets of demands from data management platforms. Besides the well-documented need for offline analytics, the requirement to immediately detect interesting trends is ever-growing, rendering real-time analytics a necessity. In such applications, data are usually determined by a temporal aspect and presented at different levels of granularity. Thousands or millions of such records are produced per second and modern systems are expected to be able to both incorporate and process them.
This thesis deals with the storage, indexing and querying of multidimensional data used for analytical processing in large scale distributed systems and aims to create an always-on, real-time data access and support system. To that end, the basic requirements of such a system are studied and identified: Powerful data processing and high-rate updates. Existing methodologies inadvertently fail to simultaneously meet both these requirements. To alleviate the problem, techniques from the field of distributed data management and data warehousing are applied in order to disseminate, query and update high volumes of multidimensional data characterized by hierarchies. The goal is to maintain the best of both worlds: Powerful indexing/analytics engine for immense volumes of data both over historical and real-time incoming updates and a shared-nothing architecture that ensures scalability and availability at low cost. Geographically spanned users, without the use of any proprietary tool, can share information that arrives from distributed locations at a high rate and query it in different levels of granularity.
The research process towards this goal starts with HiPPIS, a system that supports concept hierarchies in DHTs, in order to store historical data in various levels of granularity. The resulting system, HiPPIS, greatly simplifies the insertion and update operations due to the lack of data pre-processing. Moreover, it employs an adaptive scheme that automatically adjusts the level of indexing according to the granularity of the incoming queries, without assuming any prior knowledge of the workload.
In an attempt to include an a-priori consideration for group-by queries, as well as to explicitly deal with the query performance versus variable data availability or load skew, a well known, highly effective centralized structure is distributed over an unstructured network of interconnected commodity nodes on-the-fly, reducing cube creation and query times by enforcing parallelization. Brown Dwarf performs online querying and updating and employs an adaptive replication scheme that adjusts to sudden shifts in workload skew as well as network churn by expanding or shrinking the units of the distributed data structure. Thus, the system ensures elasticity of resources and content availability.
Finally, to improve the handling of time series data, namely data determined by a temporal aspect, HORAE is proposed, a system that employs a hybrid solution for data storage and processing: High-rate updates and queries targeting the most recent items are handled by a DHT-based system that enables fast insertion times and multidimensional indexing. The large bulk of the data is handled through a distributed data cube structure that adaptively materializes and replicates according to demand. The two components seamlessly integrate to offer the advantages of powerful aggregate data processing along with scalability and elasticity of commodity resources. |
en |
dc.description.statementofresponsibility |
Αικατερίνη Γ. Δόκα |
el |
dc.language.iso |
el |
en |
dc.rights |
ETDFree-policy.xml |
en |
dc.subject |
Κατανεμημένα Συστήματα |
el |
dc.subject |
Αποθήκες δεδομένων |
el |
dc.subject |
Αναλυτική Επεξεργασία |
el |
dc.subject |
Συστήματα Ομότιμων Κόμβων |
el |
dc.subject |
Κύβος δεδομένων |
el |
dc.subject |
Distributed Systems |
en |
dc.subject |
Data Warehousing |
en |
dc.subject |
Analytical Processing |
en |
dc.subject |
Peer-to-Peer Systems |
en |
dc.subject |
Data Cubes |
en |
dc.title |
Διαχείριση Δεδομένων σε Κατανεμημένα Συστήματα Μεγάλης Κλίμακας για Χρήση σε Εφαρμογές Αναλυτικής Επεξεργασίας |
el |
dc.title.alternative |
Data Management in Large Scale Distributed Systems for Analytical Processing Applications |
en |
dc.type |
doctoralThesis |
el (en) |
dc.date.accepted |
2011-04-28 |
- |
dc.date.modified |
2011-06-02 |
- |
dc.contributor.advisorcommitteemember |
Τσανάκας, Παναγιώτης |
el |
dc.contributor.advisorcommitteemember |
Σελλής, Τιμολέων |
el |
dc.contributor.committeemember |
Κοζύρης, Νεκτάριος |
el |
dc.contributor.committeemember |
Τσανάκας, Παναγιώτης |
el |
dc.contributor.committeemember |
Σελλής, Τιμολέων |
el |
dc.contributor.committeemember |
Κουμπαράκης, Μανόλης |
el |
dc.contributor.committeemember |
Παπασπύρου, Νικόλαος |
el |
dc.contributor.committeemember |
Κωτίδης, Ιωάννης |
el |
dc.contributor.committeemember |
Ιωαννίδης, Ιωάννης |
el |
dc.contributor.department |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστήμάτων |
el |
dc.date.recordmanipulation.recordcreated |
2011-06-23 |
- |
dc.date.recordmanipulation.recordmodified |
2011-06-23 |
- |