Συσταδοποίηση τροχιών κινούμενων αντικειμένων με χρονικούς περιορισμούς σε κατανεμημένες βάσεις δεδομένων

Σκαρλάτος, Ευστάθιος; Skarlatos, Efstathios

dc.contributor.author	Σκαρλάτος, Ευστάθιος	el
dc.contributor.author	Skarlatos, Efstathios	en
dc.date.accessioned	2017-06-01T06:52:49Z
dc.date.issued	2017-06-01
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/44965
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.7277
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) “Γεωπληροφορική”	el
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Συσταδοποίηση	el
dc.subject	Χωρικές βάσεις δεδομένων	el
dc.subject	Τροχιακά δεδομένα	el
dc.subject	Χωροχρονικά δεδομένα	el
dc.subject	Μεγάλου όγκου δεδομένα	el
dc.subject	Clustering	en
dc.subject	Spatial databases	en
dc.subject	Trajectories	el
dc.subject	Spatio-temporal data	el
dc.subject	Big data	el
dc.title	Συσταδοποίηση τροχιών κινούμενων αντικειμένων με χρονικούς περιορισμούς σε κατανεμημένες βάσεις δεδομένων	el
dc.title	Sub-trajectory clustering analysis with temporal constraints in distributed databases	en
heal.type	masterThesis
heal.classification	Γεωπληροφορική	el
heal.classification	Geoinformatics	en
heal.dateAvailable	2018-05-31T21:00:00Z
heal.language	el
heal.access	embargo
heal.recordProvider	ntua	el
heal.publicationDate	2016-10-25
heal.abstract	As sensors spread across almost every industry, the Internet of Things (IoT) is going to trigger a massive influx of big data. The Internet of Things revolves around increasing machine-to-machine communication; it’s built on cloud computing and networks of data-gathering sensors; it is a mobile, virtual, and instantaneous connection; and they say it’s going to make everything in our lives from streetlights to seaports "smart" (Burrus D., 2014). While, the Internet of Things is about data, devices, and connectivity; data – big and small – is in front and center in the IoT world of connected devices. Especially big data comes into large amounts, it is a mixture of structured and unstructured information, which arrives at (often real-time) speed and can be of uncertain provenance (Burrus D., 2014). As mentioned by Brown B., et al (2013) "just think about what could be happening at your own company right now: sensors embedded in process machinery may be collecting operations data, while marketers scan social media or use location data from smartphones to understand teens’ buying quirks. Data exchanges may be networking your supply chain partners and employees could be swapping best practices on corporate wikis" and you will understand the game-changing effects of big data. Over the last few years the volume of data has exploded. Heading more and more towards data centralized sciences, a variety of solutions have been implemented in order to find the appropriate one for the problem of large data (so-called Big Data) management. Big Data concerns large-volume, complex growing datasets with multiple and autonomous sources (Dinesh J., Patil B., 2014). While the volume of Big Data increases, so do the complexity and relationships underneath the data. Driven by real-world applications and key industrial stakeholders managing and mining Big Data have shown to be a challenging, yet not complete task. The critical challenge is using this data when it is still in motion – and extracting valuable information from it (Teachey D., 2015). The rise of Big Data is driven by the rapid increase of complex data and their changes in volume and nature. Talking about the nature of data, millions of dynamic data, data from sensors and social media, etc. are being collected, with or without containing spatio-temporal information. Specifically, mobile devices get to know more information about the user, day by day, and data gathered and recorded by such devices need to be collected, stored and analyzed appropriately in order to identify potential patterns and lead to useful conclusions. It is evident today that big data and especially data related to moving objects, appear to be our only choice if we want to progress and prosper. In particular, space-time position data, named trajectory data, may be used to record the trajectories of people or objects. With the increasing application of positioning and communication technological developments, the accumulation of large amounts of trajectory data provides opportunities for mining useful information from the data. Analysis and extraction of useful information from mass trajectory data have emerged as hot issues in data mining and it presents, still today, many challenges. Furthermore, in typical data mining systems, the mining procedures requires computational intensive computing units for data analysis and comparisons. For big data mining, because data scale is far beyond the capacity that a single personal computer can handle, a typical big data processing framework will rely on cluster computers with high-performance computing platform, with a data mining task being deployed by running some parallel programming tools on large number of clusters (computer nodes) (Wu X., et al., 2014). To adapt to the multisource, multiscale and dynamic Big Data, researchers have been exploring different techniques and expanding existing data mining methods in many ways in order to serve the need of the data. Severous techniques that have been developed and implemented, regarding Big Data mining processes and parallel programming programs are listed in this study. In particular, this Mater thesis aims to examine both the required theoretical background of the parallel programming models and management of distributed databases, as well as their application in spatio-temporal field of orbital data. Precisely, by integrated a procedural language like PL/Proxy, which allows the user to horizontally distribute data into nodes through functions in a database management system, PostgreSQL is being extended to a distributed database management system. (D-DBMS) Moreover, in this thesis the development of the simulation of the ReTraTree structure in a D-DBMS is described together with two alternative implementations of QuT clustering algorithm, proposing such a solution on top of ReTraTree structure, trying to provide a holistic solution to the problem of distribution and clustering spatiotemporal data. Finally, the required functions have been implemented for distributing sub trajectories intersecting a temporal period (hard and data driven partitioning) into nodes and clustering through S2T-Clustering algorithm for electing representative trajectories that will eventually form the leaves of the tree. Thus, concerning QuT-Clustering algorithm, two alternatives have been investigated: the collection of the representatives intersecting the period of interest, which have been distributed to the relevant nodes, their sort in time and partition in equivalence classes and finally, their comparison based on a metric function (Alternative implementation parallel QuT-Clustering), as well as the collecting of the representatives intersecting the period of interest, which have been distributed to the relevant nodes, their sort in time and partition in equivalence classes, the distribution of the classes to nodes and finally, the comparison of representatives within the classes.	en
heal.abstract	Το "διαδίκτυο των πραγμάτων" ή όπως είναι ευρύτερα γνωστό το Internet of things (IoT) βασίζεται στη σύνδεση διάφορων μικρών και μεγάλων συσκευών ή και συσκευών με ενσωματωμένους αισθητήρες και εξοπλισμό διασύνδεσης (tablets, τηλέφωνα, ηχεία, wearables, κάμερες, αισθητήρες κ.α) τόσο μεταξύ τους όσο και με τον κατασκευαστή, για να λαμβάνουν και να μεταδίδουν σχετικά δεδομένα με στόχο να προσφέρουν περισσότερες προσωποποιημένες (personalized) υπηρεσίες. Το Διαδίκτυο των Πραγμάτων αποτελείται από «έξυπνα πράγματα» που συνδέονται τόσο μεταξύ τους, όσο και με βάσεις δεδομένων (δηλ. servers) και λέγεται πως πρόκειται να κάνει τα πάντα στη ζωή μας, από φώτα του δρόμου με τους θαλάσσιους λιμένες, «έξυπνα» (Burrus D., 2014). Και ενώ το IoT αφορά στα δεδομένα, τις συσκευές και τη συνδεσιμότητα, τα δεδομένα - μικού και μεγάλου όγκου – βρίσκονται στο κέντρο του IoT των συνδεδεμένων συσκευών. Ιδιαίτερα τα δεδομένα μεγάλου όγκου (Big Data), έρχονται σε μεγάλες ποσότητες και αποτελούν ένα μείγμα τόσο δομημένων όσο και αδόμητων πληροφοριών, οι οποίες μεταδίδονται συχνά σε πραγματικό χρόνο, και σε προέλευση η οποία μπορεί να είναι αβέβαιη (Burrus D., 2014). Όπως χαρακτηριστικά αναφέρουν οι (Brown B., et al 2013) «απλά σκεφτείτε τι θα μπορούσε να συμβαίνει στη δική σας εταιρεία αυτή τη στιγμή: αισθητήρες ενσωματωμένοι σε μηχανήματα να συλλέγουν δεδομένα, ενώ παράλληλα τα social media ή τα δεδομένα τοποθεσίας από τα smartphones προσφέρουν άφθονη πληροφορία προκειμένου να γίνουν κατανοητές οι προτιμήσει και οι ιδιορρυθμίες εφήβων. Είναι πλέον ξεκάθαρο πως η ανταλλαγή μεγάλου όγκου δεδομένων ενισχύει τη δικτύωση συνεργατών και υπαλλήλων, καθώς τους επιτρέπει να μοιράζονται βέλτιστες πρακτικές και εμπειρίες με μεγάλο όφελος» και θα καταλάβετε τι αλλάζει με τη χρήση του μεγάλου όγκου δεδομένων. Τα τελευταία χρόνια, με τα τεχνολογικά επιτεύγματα, ο όγκος των δεδομένων έχει εκτοξευτεί. Ο όρος «Δεδομένα Μεγάλου Όγκου - Big Data» χρησιμοποιείται σήμερα για να περιγράψει την εκθετική αύξηση και τη διαθεσιμότητα των δεδομένων - τόσο δομημένων όσο και μη δομημένων. Oδεύοντας συνεχώς σε όλο και περισσότερο επιστήμες που αφορούν δεδομένα, πληθώρα λύσεων έχει αναπτυχθεί και παρουσιαστεί από αρκετούς οργανισμούς για το πρόβλημα της διαχείρισης μεγάλου όγκου δεδομένων. Γιατί όμως ο μεγάλος όγκος δεδομένων έχει σημασία; Το πραγματικό πρόβλημα δεν είναι η απόκτηση μεγάλου όγκου δεδομένων, αλλά ο τρόπος με τον οποίο πρέπει αυτός να διαχειριστεί. Οι οργανισμοί, σήμερα, είναι σε θέση να λαμβάνουν στοιχεία από οποιαδήποτε πηγή σε οποιαδήποτε μορφή, να αξιοποιούν τα σχετικά δεδομένα και να τα αναλύουν, προκειμένου να βρουν τις απαντήσεις που δίνουν, τη δυνατότητα για μείωση του κόστους, τη μείωση του χρόνου απόκρισης, την ανάπτυξη νέων προϊόντων και βελτιστοποιημένων υπηρεσιών, καθώς και να οδηγηθούν σε πιο «έξυπνη» ή σωστότερη λήψη επιχειρηματικών αποφάσεων. Αυτό συμβαίνει γιατί περισσότερα δεδομένα μπορεί να οδηγήσουν σε πιο ακριβείς αναλύσεις, οι πιο ακριβείς αναλύσεις μπορεί να οδηγήσουν σε καλύτερη και σωστότερη λήψη αποφάσεων, η οποία μπορεί να συμβάλλει στην επιχειρησιακή αποτελεσματικότητα, τη μείωση του κόστους και φυσικά τη μείωση του κινδύνου. Ο διεθνής Οργανισμός ISACA σε μία πρόσφατη μελέτη (ISACA White Paper March 2013 – Big Data Impacts and Benefits), προσέγγισε μεταξύ άλλων και την περιοχή των Big Data, καταγράφοντας τη «σωστότερη λήψη αποφάσεων» ως πρωταρχικό στόχο της ανάλυσης μεγάλων δεδομένων. Και ενώ ο όγκος των δεδομένων αυξάνεται συνεχώς, το ίδιο συμβαίνει και με την πολυπλοκότητα και τις σχέσεις μεταξύ των δεδομένων. Η ολοένα αυξανόμενη ανάπτυξη εφαρμογών με πραγματικά δεδομένα, καθώς και ο μεγάλος αριθμός εμπλεκομένων στον κλάδο διαχείρισης και εξόρυξης μεγάλου όγκου δεδομένων έχει αποδειχθεί πως είναι μία πρόκληση η οποία δεν έχει ακόμη επιτευχθεί. Η μεγαλύτερη και πιο κρίσιμη πρόκληση των Big Data, είναι να χρησιμοποιούνται τα δεδομένα όταν αυτά βρίσκονται ακόμη σε κίνηση - και να εξαχθούν πολύτιμες πληροφορίες από αυτά (Teachey D., 2015). Η ταχεία αύξηση των σύνθετων δεδομένων (χωρικά, δυναμικά δεδομένα, κλπ) και οι μεταβολές στον όγκο και τη φύση αυτών, οδήγησαν στην ανάδειξη των Big Data ως τη νέα τάση της εποχής. Μιλώντας για τη φύση των δεδομένων, εκατομμύρια δυναμικών δεδομένων, δεδομένα από αισθητήρες και μέσα κοινωνικής δικτύωσης, δεδομένα που περιέχουν ή όχι χωροχρονική πληροφορία, και άλλα δεδομένα, συλλέγονται σήμερα σε καθημερινή βάση. Συγκεκριμένα, οι κινητές συσκευές «γνωρίζουν» μέρα με τη μέρα περισσότερες πληροφορίες για τον χρήστη, ενώ τα στοιχεία που συγκεντρώνονται και αποθηκεύονται από τέτοιες συσκευές πρέπει να συλλέγονται, αποθηκεύονται και αναλύονται κατάλληλα, προκειμένου να εντοπιστούν πιθανά πρότυπα τα οποία θα οδηγήσουν στη συνέχεια σε χρήσιμα συμπεράσματα. Είναι φανερό ότι σήμερα, μεγάλου όγκου δεδομένα και ειδικότερα τα δεδομένα που σχετίζονται με τροχιές κινούμενων αντικειμένων,είναι ιδιαίτερα σημαντικά. Ειδικότερα, τα χωροχρονικά δεδομένα, μπορεί να χρησιμοποιηθούν για να καταγράψουν τις τροχιές των ανθρώπων ή αντικειμένων και μπορεί να οδηγήσουν στην ανίχνευση προτύπων. Με την αυξανόμενη χρήση και ανάπτυξη των τεχνολογιών εντοπισμού και επικοινωνίας, η συσσώρευση μεγάλων ποσοτήτων δεδομένων που σχετίζονται με τροχιές κινούμενων αντικειμένων παρέχει δυνατότητες για την εξόρυξη χρήσιμων πληροφοριών από τα δεδομένα αυτά. Σημειώνεται πως η ανάλυση και εξαγωγή πληροφοριών από τα μαζικά δεδομένα που σχετίζονται με τροχιές κινούμενων αντικειμένων παρουσιάζουν, ακόμα και σήμερα, πολλές προκλήσεις. Στη συνέχεια, σε τυπικά συστήματα εξόρυξης δεδομένων, οι διαδικασίες εξόρυξης απαιτούν υπολογιστικά συστήματα μεγάλης ισχύος για ανάλυση δεδομένων και συγκρίσεις. Για την εξόρυξη δεδομένων μεγάλου όγκου, επειδή η κλίμακα των δεδομένων είναι πολύ μεγαλύτερη από αυτή που μπορεί να διαχειριστεί ένας τυπικός υπολογιστής, ένα τυπικό πλαίσιο επεξεργασίας των δεδομένων αυτών βασίζεται σε ένα σύμπλεγμα ηλεκτρονικών υπολογιστών με υπολογιστική πλατφόρμα υψηλής απόδοσης, όπου η εξόρυξη δεδομένων θα πραγματοποιηθεί με την εκτέλεση ορισμένων παράλληλων προγραμματιστικών εργαλείων για μεγάλο αριθμό συστάδων (Wu Χ, et al., 2014). Σε μία προσπάθεια προσαρμογής στον πολυδιάστατο, δυναμικό και μεγάλο όγκο δεδομένων (Big Data) προερχόμενο από διαφορετικές πηγές, οι ερευνητές διερευνούν τεχνικές, καθώς και την επέκταση των υφιστάμενων μεθόδων εξόρυξης δεδομένων με πολλούς τρόπους, προκειμένου να εξυπηρετήσει την ανάγκη των δεδομένων αυτών. Οι διάφορες τεχνικές που έχουν αναπτυχθεί και εφαρμοστεί, όσον αφορά τις διαδικασίες εξόρυξης Big Data, αλλά και παράλληλων προγραμμάτων προγραμματισμού αναφέρονται στην παρούσα μελέτη. Ειδικότερα, στόχος της Μεταπτυχιακής Διπλωματικής Εργασίας είναι να εξετάσει τόσο το απαιτούμενο θεωρητικό υπόβαθρο των παράλληλων μοντέλων προγραμματισμού και διαχείρισης κατανεμημένων βάσεων δεδομένων, όπως και την εφαρμογή τους στο χωροχρονικό πεδίο των δεδομένων που σχετίζονται με τις τροχιές κινούμενων αντικειμένων. Συγκεκριμένα εφαρμόζοντας μία γλώσσα διεργασιών (PL/Proxy), η οποία επιτρέπει την οριζόντια κατανομή δεδομένων σε κόμβους με τη βοήθεια συναρτήσεων σε ένα σύστημα διαχείρισης βάσεων δεδομένων (PostgreSQL), παρουσιάζεται η προσομοίωση της δενδρικής δομής ReTraTree σε ένα κατανεμημένο περιβάλλον βάσεων δεδομένων (D-DBMS). Επίσης, παρουσιάζεται, στο ίδιο περιβάλλον, η υλοποίηση δύο εναλλακτικών λύσεων όσον αφορά τον αλγόριθμο QuT-Clustering ο οποίος ενεργεί στην δομή του ReTraTree, προκειμένου να δοθεί μία ολιστική λύση στο πρόβλημα της κατανομής και συσταδοποίησης χωροχρονικών δεδομένων. Αναλυτικότερα, αναπτύχθηκαν οι απαιτούμενες συναρτήσεις με σκοπό την κατανομή των τροχιακών δεδομένων με χρονικά κριτήρια (Hard and Data driven partitioning) σε κόμβους και στη συνέχεια, ακολούθησε η συσταδοποίηση τους με το αποτέλεσμα του αλγόριθμου S2T-Clustering , προκειμένου να εκλεγούν οι αντιπροσωπευτικές τροχιές που τελικά θα αποτελούν και τα φύλλα της δομή του δέντρου. Δύο εναλλακτικές του αλγορίθμου QuT-Clustering διερευνήθηκαν: η συλλογή των αντιπροσώπων που έχουν κατανεμηθεί στους κόμβους, το σορτάρισμα και η κατάτμηση τους σε κλάσεις ισοδυναμίας και τέλος, η επιστροφή του αποτελέσματος της σύγκρισης τους μεταξύ τους με βάση κάποια μετρική συνάρτηση (εναλλακτική υλοποίηση παράλληλου QuT-Clustering, καθώς και η συλλογή των αντιπροσώπων που έχουν κατανεμηθεί στους κόμβους, το σορτάρισμα και η κατάτμηση τους σε ίσες κλάσεις, η κατανομή τους σε κόμβους και τέλος η σύγκριση των αντιπροσώπων μεταξύ τους, εντός των κλάσεων αυτών.	el
heal.advisorName	Θεοδωρίδης, Ιωάννης	el
heal.committeeMemberName	Θεοδωρίδης, Ιωάννης	el
heal.committeeMemberName	Πελέκης, Νικόλαος	el
heal.committeeMemberName	Κάβουρας, Μαρίνος	el
heal.committeeMemberName	Pelekis, Nikolaos	el
heal.academicPublisher	Σχολή Αγρονόμων και Τοπογράφων Μηχανικών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	true