HEAL DSpace

Σχεδιασμός και υλοποίηση γεννήτριας ρεαλιστικών χωροχρονικών δεδομένων μεγάλου όγκου για αποτίμηση υπηρεσιών κοινωνικής δικτύωσης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Δούδαλη, Θάλεια-Δήμητρα el
dc.contributor.author Doudali, Thaleia-Dimitra en
dc.date.accessioned 2015-09-04T11:29:48Z
dc.date.available 2015-09-04T11:29:48Z
dc.date.issued 2015-09-04
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/41185
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.10387
dc.rights Default License
dc.subject Γεννήτριες el
dc.subject Generators en
dc.subject Χωροχρονικά δεδομένα el
dc.subject Δεδομένα μεγάλου όγκου el
dc.subject Σημεία ενδιαφέροντος el
dc.subject Κατανεμημένα συστήματα el
dc.subject Υπηρεσίες Google el
dc.subject HBase el
dc.subject Κλιμακωσιμότητα el
dc.subject Spatio-temporal data en
dc.subject Textual data en
dc.subject Big data en
dc.subject Points of interest en
dc.subject Daily routes en
dc.subject Google directions API en
dc.subject Google static maps API en
dc.subject HBase en
dc.subject Scalability testing en
dc.subject Distributed systems en
dc.title Σχεδιασμός και υλοποίηση γεννήτριας ρεαλιστικών χωροχρονικών δεδομένων μεγάλου όγκου για αποτίμηση υπηρεσιών κοινωνικής δικτύωσης el
dc.title Performance evaluation of social networking services using a spatio-temporal and textual Big Data generator en
heal.type bachelorThesis
heal.classification Επιστήμη υπολογιστών el
heal.classification Computer science en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2015-07-20
heal.abstract Η ποσότητα δεδομένων κοινωνικής δικτύωσης, η οποία παράγεται καθημερινά, αυξάνεται με ραγδαίους ρυθμούς. Η αποθήκευση και ο διαμοιρασμός του τεράστιου αυτού όγκου δεδομένων δε μπορεί πλέον να πραγματοποιηθεί με παραδοσιακές τεχνικές. Σαν αποτέλεσμα, οι σύγχρονες υπηρεσίες κοινωνικής δικτύωσης χρησιμοιούν κατανεμημένα συστήματα διαχείρισης δεδομένων, τα οποία τους παρέχουν επαρκή χώρο αποθήκευσης πληθώρας δεδομένων αλλά και μεθόδους ταχύτατης επεξεργασίας τους. Η αξιολόγηση των υπηρεσίων αυτών μπορεί να γίνει μέσω της μελέτης της επίδοσής τους κατά τη διάρκεια χρήσης τους. Η πλήρης κατανόηση και αποτίμηση, όμως, της υποδομής και των τεχνικών αποθήκευσης και επεξεργασίας δεδομένων, τις οποίες ακολουθούν, δε μπορούν να πραγματοποιηθούν λόγω της αδυναμίας πρόσβασης στον όγκο δεδομένων τον οποίο διαχειρίζονται. Αυτό οφείλεται στο γεγονός ότι πρόκειται για ιδιωτικά επιχειρισιακά δεδομένα που αφορούν πραγματικούς χρήστες και δεν μπορούν να εκμεταλευτούν ερευνητικά. Για το λόγο αυτό, σκοπός της παρούσας διπλωματικής εργασίας είναι η δημιουργία μίας γεννήτριας ρεαλιστικών χωροχρονικών δεδομένων μεγάλου όγκου, τα οποία θα προσομοιάζουν πραγματικά δεδομένα υπηρεσιών κοινωνικής δικτύωσης. Πιο συγκεκριμένα, η γεννήτρια διαθέτει ως πηγή δεδομένων πραγματικά σημεία ενδιαφέροντος και κριτικές για τα σημεία αυτά από γνωστή υπηρεσία κοινωνικής δικτύωσης. Στη συνέχεια, δημιουργεί ημερήσιες ρεαλιστικές τροχιές χρηστών στο χάρτη χρησιμοποιώντας την υπηρεσία εύρεσης διαδρομών της Google. Για κάθε τροχιά αποθηκεύει τα δορυφορικά στίγματα των διαδρομών του χρήστη και τις επισκέψεις του στα σημεία ενδιαφέροντος, οι οποίες συνοδεύονται από βαθμολογία και κριτική του σημείου αυτού. Οι ημερήσιες αυτές τροχιές είναι διαθέσιμες σε μορφή στατικού χάρτη, όπως αυτός δημιουργείται από την αντίστοιχη υπηρεσία της Google, καθώς επίσης και με τη μορφή raw data. Η γεννήτρια λαμβάνει διάφορες παράμετρους εισόδου, οι οποίες διαφοροποιούν το συνολικά παραγόμενο όγκο και τη μορφή των δεδομένων. Ενδεικτικά, αυτές είναι το πλήθος χρηστών που θα δημιουργηθούν, το χρονικό διάστημα δημιουργίας ημερήσιων τροχιών καθώς και το πλήθος και η διάρκεια των ημερήσιων επισκέψεων. Η ημερήσια εκτέλεση της γεννήτριας για ένα σημαντικό χρονικό διάστημα οδήγησε στη δημιουργία ενός συνόλου χωροχρονικών δεδομένων και δεδομένων κειμένου μεγάλου όγκου. Πιο συγκεκριμένα, δημιουργήθηκαν 9464 χρήστες, 1586537 επισκέψεις χρηστών και 38800019 δορυφορικά στίγματα, τα οποία αντιστοιχούν σε συνολικά δεδομένα μεγέθους 3 GB. Το σύνολο των δεδομένων αυτών αποθηκεύτηκε σε μία κατανεμημένη βάση δεδομενων, στα πρότυπα αυτών που χρησιμοιούν γνωστές πλατφόρμες κοινωνικής δικτύωσης. Στη συνέχεια, υλοποιήθηκαν επερωτήσεις στα διαθέσιμα δεδομένα, οι οποίες είναι αντιπροσωπευτικές πραγματικών επερωτήσεων σε αντίστοιχες πλατφόρμες. Τέλος, πραγματοποιήθηκε η εκτέλεση των επερωτήσεων αυτών στα δεδομένα αυτά για μεταβλητό πλήθος κόμβων του κατανεμημένου συστήματος αποθήκευσης και μεταβλητό πλήθος ταυτόχρονων επερωτήσεων. Με τον τρόπο αυτό αξιολογήθηκε η κλιμακωσιμότητα του συστήματος αυτού, η οποία μας οδηγεί και σε μία ενδεικτική αποτίμηση των υπηρεσιών κοινωνικής δικτύωσης, οι οποίες χρησιμοποιούν αντίστοιχα κατανεμημένα συστήματα αποθήκευσης και επεξεργασίας δεδομένων μεγάλου όγκου. el
heal.abstract Nowadays, in the era of Big Data, the amount of social media data, that is being produced daily, increases significantly. The storage and analysis of such data cannot be achieved any more with traditional means and methods. Consequently, social networking services resort in using distributed systems and techniques, in order to store and manage effectively the huge amount of the data they own. Usually, the evaluation of such services results through the ease of use and satisfactory performance. However, deep understanding of how data is stored and managed cannot be reached, due to the lack of access to these data which is imposed by privacy restrictions. In this way, it is not possible to evaluate properly such social networking services. Therefore, goal of the current diploma thesis is to design and implement a generator of realistic spatio-temporal and textual data, that will be similar to real social media data. The generator uses as source data, real points of interest and reviews for these points, extracted by a well-known travel service. Then, it creates realistic daily routes per user on the map, using the Google Directions API. These daily routes are available in the form of static maps, using the Google Static Maps API. Each daily route includes check-ins at points of interest, together with rating and review of the point, and gps traces indicating the route. Also, the generator functions with various input parameters, that differentiate the amount and structure of data produced. For example, such parameters can be the number of users created, the time period in which daily routes will be produced per user and the number and duration of daily check-ins. The generator was executed daily for a significant amount of time in order to create a Big Data dataset of spatio-temporal and textual data. More specifically, the generator created 9464 users, 1586537 check-ins and 38800019 GPS traces, which sum up to 3 GB data. The dataset was stored in a distributed database system using a specific data storage model. Moreover, we implemented certain queries for these data, that are representative of queries imposed by the users of real social network- ing services. Finally, we created a workload of queries and executed them for different number of concurrent queries and different number of nodes of the distributed database system. In this way, we were able to perform a scalability testing to the system and evaluate the performance of distributed means of storage and processing of social media data used by many social networking services. en
heal.advisorName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Κοζύρης, Νεκτάριος el
heal.committeeMemberName Παπασπύρου, Νικόλαος el
heal.committeeMemberName Τσουμάκος, Δημήτριος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 62 σ.
heal.fullTextAvailability true


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής