dc.contributor.author |
Δούδαλη, Θάλεια-Δήμητρα
|
el |
dc.contributor.author |
Doudali, Thaleia-Dimitra
|
en |
dc.date.accessioned |
2015-09-04T11:29:48Z |
|
dc.date.available |
2015-09-04T11:29:48Z |
|
dc.date.issued |
2015-09-04 |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/41185 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.10387 |
|
dc.rights |
Default License |
|
dc.subject |
Γεννήτριες |
el |
dc.subject |
Generators |
en |
dc.subject |
Χωροχρονικά δεδομένα |
el |
dc.subject |
Δεδομένα μεγάλου όγκου |
el |
dc.subject |
Σημεία ενδιαφέροντος |
el |
dc.subject |
Κατανεμημένα συστήματα |
el |
dc.subject |
Υπηρεσίες Google |
el |
dc.subject |
HBase |
el |
dc.subject |
Κλιμακωσιμότητα |
el |
dc.subject |
Spatio-temporal data |
en |
dc.subject |
Textual data |
en |
dc.subject |
Big data |
en |
dc.subject |
Points of interest |
en |
dc.subject |
Daily routes |
en |
dc.subject |
Google directions API |
en |
dc.subject |
Google static maps API |
en |
dc.subject |
HBase |
en |
dc.subject |
Scalability testing |
en |
dc.subject |
Distributed systems |
en |
dc.title |
Σχεδιασμός και υλοποίηση γεννήτριας ρεαλιστικών
χωροχρονικών δεδομένων μεγάλου όγκου για αποτίμηση
υπηρεσιών κοινωνικής δικτύωσης |
el |
dc.title |
Performance evaluation of social networking services using a spatio-temporal and textual Big Data generator |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Επιστήμη υπολογιστών |
el |
heal.classification |
Computer science |
en |
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2015-07-20 |
|
heal.abstract |
Η ποσότητα δεδομένων κοινωνικής δικτύωσης, η οποία παράγεται καθημερινά, αυξάνεται με ραγδαίους ρυθμούς. Η αποθήκευση και ο διαμοιρασμός του τεράστιου αυτού όγκου δεδομένων δε μπορεί πλέον να πραγματοποιηθεί με παραδοσιακές τεχνικές. Σαν αποτέλεσμα, οι σύγχρονες
υπηρεσίες κοινωνικής δικτύωσης χρησιμοιούν κατανεμημένα συστήματα διαχείρισης δεδομένων, τα
οποία τους παρέχουν επαρκή χώρο αποθήκευσης πληθώρας δεδομένων αλλά και μεθόδους ταχύτατης
επεξεργασίας τους. Η αξιολόγηση των υπηρεσίων αυτών μπορεί να γίνει μέσω της μελέτης της
επίδοσής τους κατά τη διάρκεια χρήσης τους. Η πλήρης κατανόηση και αποτίμηση, όμως, της
υποδομής και των τεχνικών αποθήκευσης και επεξεργασίας δεδομένων, τις οποίες ακολουθούν, δε
μπορούν να πραγματοποιηθούν λόγω της αδυναμίας πρόσβασης στον όγκο δεδομένων τον οποίο
διαχειρίζονται. Αυτό οφείλεται στο γεγονός ότι πρόκειται για ιδιωτικά επιχειρισιακά δεδομένα που
αφορούν πραγματικούς χρήστες και δεν μπορούν να εκμεταλευτούν ερευνητικά. Για το λόγο αυτό,
σκοπός της παρούσας διπλωματικής εργασίας είναι η δημιουργία μίας γεννήτριας ρεαλιστικών
χωροχρονικών δεδομένων μεγάλου όγκου, τα οποία θα προσομοιάζουν πραγματικά δεδομένα
υπηρεσιών κοινωνικής δικτύωσης.
Πιο συγκεκριμένα, η γεννήτρια διαθέτει ως πηγή δεδομένων πραγματικά σημεία ενδιαφέροντος
και κριτικές για τα σημεία αυτά από γνωστή υπηρεσία κοινωνικής δικτύωσης. Στη συνέχεια,
δημιουργεί ημερήσιες ρεαλιστικές τροχιές χρηστών στο χάρτη χρησιμοποιώντας την υπηρεσία
εύρεσης διαδρομών της Google. Για κάθε τροχιά αποθηκεύει τα δορυφορικά στίγματα των διαδρομών
του χρήστη και τις επισκέψεις του στα σημεία ενδιαφέροντος, οι οποίες συνοδεύονται από βαθμολογία
και κριτική του σημείου αυτού. Οι ημερήσιες αυτές τροχιές είναι διαθέσιμες σε μορφή στατικού
χάρτη, όπως αυτός δημιουργείται από την αντίστοιχη υπηρεσία της Google, καθώς επίσης και με τη
μορφή raw data. Η γεννήτρια λαμβάνει διάφορες παράμετρους εισόδου, οι οποίες διαφοροποιούν το
συνολικά παραγόμενο όγκο και τη μορφή των δεδομένων. Ενδεικτικά, αυτές είναι το πλήθος χρηστών
που θα δημιουργηθούν, το χρονικό διάστημα δημιουργίας ημερήσιων τροχιών καθώς και το πλήθος
και η διάρκεια των ημερήσιων επισκέψεων.
Η ημερήσια εκτέλεση της γεννήτριας για ένα σημαντικό χρονικό διάστημα οδήγησε στη
δημιουργία ενός συνόλου χωροχρονικών δεδομένων και δεδομένων κειμένου μεγάλου όγκου. Πιο
συγκεκριμένα, δημιουργήθηκαν 9464 χρήστες, 1586537 επισκέψεις χρηστών και 38800019
δορυφορικά στίγματα, τα οποία αντιστοιχούν σε συνολικά δεδομένα μεγέθους 3 GB. Το σύνολο των
δεδομένων αυτών αποθηκεύτηκε σε μία κατανεμημένη βάση δεδομενων, στα πρότυπα αυτών που
χρησιμοιούν γνωστές πλατφόρμες κοινωνικής δικτύωσης. Στη συνέχεια, υλοποιήθηκαν επερωτήσεις
στα διαθέσιμα δεδομένα, οι οποίες είναι αντιπροσωπευτικές πραγματικών επερωτήσεων σε
αντίστοιχες πλατφόρμες. Τέλος, πραγματοποιήθηκε η εκτέλεση των επερωτήσεων αυτών στα
δεδομένα αυτά για μεταβλητό πλήθος κόμβων του κατανεμημένου συστήματος αποθήκευσης και
μεταβλητό πλήθος ταυτόχρονων επερωτήσεων. Με τον τρόπο αυτό αξιολογήθηκε η κλιμακωσιμότητα
του συστήματος αυτού, η οποία μας οδηγεί και σε μία ενδεικτική αποτίμηση των υπηρεσιών
κοινωνικής δικτύωσης, οι οποίες χρησιμοποιούν αντίστοιχα κατανεμημένα συστήματα αποθήκευσης
και επεξεργασίας δεδομένων μεγάλου όγκου. |
el |
heal.abstract |
Nowadays, in the era of Big Data, the amount of social media data, that is being produced daily,
increases significantly. The storage and analysis of such data cannot be achieved any more with
traditional means and methods. Consequently, social networking services resort in using distributed
systems and techniques, in order to store and manage effectively the huge amount of the data they own.
Usually, the evaluation of such services results through the ease of use and satisfactory performance.
However, deep understanding of how data is stored and managed cannot be reached, due to the lack of
access to these data which is imposed by privacy restrictions. In this way, it is not possible to evaluate
properly such social networking services. Therefore, goal of the current diploma thesis is to design
and implement a generator of realistic spatio-temporal and textual data, that will be similar to real
social media data.
The generator uses as source data, real points of interest and reviews for these points, extracted
by a well-known travel service. Then, it creates realistic daily routes per user on the map, using the
Google Directions API. These daily routes are available in the form of static maps, using the Google
Static Maps API. Each daily route includes check-ins at points of interest, together with rating and
review of the point, and gps traces indicating the route. Also, the generator functions with various
input parameters, that differentiate the amount and structure of data produced. For example, such
parameters can be the number of users created, the time period in which daily routes will be produced
per user and the number and duration of daily check-ins.
The generator was executed daily for a significant amount of time in order to create a Big Data
dataset of spatio-temporal and textual data. More specifically, the generator created 9464 users,
1586537 check-ins and 38800019 GPS traces, which sum up to 3 GB data. The dataset was stored in
a distributed database system using a specific data storage model. Moreover, we implemented certain
queries for these data, that are representative of queries imposed by the users of real social network-
ing services. Finally, we created a workload of queries and executed them for different number of
concurrent queries and different number of nodes of the distributed database system. In this way, we
were able to perform a scalability testing to the system and evaluate the performance of distributed
means of storage and processing of social media data used by many social networking services. |
en |
heal.advisorName |
Κοζύρης, Νεκτάριος |
el |
heal.committeeMemberName |
Κοζύρης, Νεκτάριος |
el |
heal.committeeMemberName |
Παπασπύρου, Νικόλαος |
el |
heal.committeeMemberName |
Τσουμάκος, Δημήτριος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
62 σ. |
|
heal.fullTextAvailability |
true |
|