dc.contributor.advisor |
Κοζύρης, Νεκτάριος |
el |
dc.contributor.author |
Γιαννακόπουλος, Ιωάννης Κ.
|
el |
dc.contributor.author |
Giannakopoulos, Ioannis K.
|
en |
dc.date.accessioned |
2013-02-08T09:59:30Z |
|
dc.date.available |
2013-02-08T09:59:30Z |
|
dc.date.copyright |
2012-11-23 |
- |
dc.date.issued |
2013-02-08 |
|
dc.date.submitted |
2012-11-23 |
- |
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/7578 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.13822 |
|
dc.description |
95 σ. |
el |
dc.description.abstract |
Στην παρούσα διπλωματική εργασία εξετάζουμε το πρόβλημα της ανωνυμοποίησης σχεσιακών δεδομένων με χρήση κατανεμημένων τεχνικών. Η ανωνυμοποίηση δεδομένων αποκτά ολοένα και μεγαλύτερη σημασία στις μέρες μας, εξαιτίας της έκρηξης δεδομένων που έχει σημειωθεί τα τελευταία χρόνια και συνεχίζεται ακόμη και σήμερα. Η πρόσβαση σε μεγάλο όγκο δεδομένων που συχνά παράγονται από πολλές διαφορετικές πηγές αν και είναι επιθυμητή, μπορεί να εγείρει σημαντικά ζητήματα για την προστασία και τη διατήρηση της ανωνυμίας των ατόμων και της ιδιωτικότητας των πληροφοριών που τα αφορούν. Η αφαίρεση προσωπικών πληροφοριών από τα δεδομένα (όπως το Όνομα ή το ΑΦΜ) δεν εγγυάται τη διατήρηση της ανωνυμίας, αφού ο συνδυασμός των εναπομεινάντων γνωρισμάτων με εξωτερικά, δημοσίως διαθέσιμα δεδομένα μπορεί να οδηγήσει τελικά στην ταυτοποίηση των ατόμων.
Για την αντιμετώπιση αυτών των κινδύνων έχει προταθεί το μοντέλο k-anonymity. Σκοπός του μοντέλου είναι η γενίκευση των δεδομένων με κατάλληλο τρόπο έτσι ώστε κάθε συνδυασμός των χαρακτηριστικών εκείνων, που αν διασταυρωθούν με εξωτερικές πηγές μπορούν να οδηγήσουν στην ταυτοποίηση του ατόμου, να εμφανίζονται στα δεδομένα τουλάχιστον k φορές. Έχει αναπτυχθεί ένας μεγάλος αριθμός αλγορίθμων που έχουν στόχο την εφαρμογή του μοντέλου σε σχεσιακά δεδομένα. Στην παρούσα εργασία θα συγκρίνουμε δυο αλγορίθμους ανωνυμοποίησης που εκτελούν local recoding και στηρίζονται στη συνεχή διαμέριση των δεδομένων σε υποομάδες.
Παράλληλα, ο συνεχώς αυξανόμενος όγκος των δεδομένων καθιστά αναγκαία την χρησιμοποίηση κατανεμημένων τεχνικών για τη γρήγορη και αποδοτική ανωνυμοποίηση των πληροφοριών. Η κατανεμημένη εκτέλεση θα συμβάλλει στην ταχύτερη ολοκλήρωση της διαδικασίας, στη διαχείριση πολύ μεγάλου όγκου δεδομένων που δεν θα ήταν δυνατή από μια κεντρική εκτέλεση, στην παραλληλοποίηση της διαδικασία και στην διαχείριση των σφαλμάτων με πολύ μικρότερο κόστος σε σχέση με μια κεντρική εκτέλεση.
Στην παρούσα εργασία προτείνουμε ένα τρόπο παραλληλοποίησης του προβλήματος, έτσι ώστε να είναι εφικτή η κατανεμημένη εκτέλεση και στη συνέχεια εκτελούμε τους αλγορίθμους ανωνυμοποίησης συγκρίνοντας την απόδοσή τους για διάφορες περιπτώσεις δεδομένων και χαρακτηριστικών της ανωνυμοποίησης. |
el |
dc.description.abstract |
In this diploma thesis we consider the problem of anonymising relational data using distributed techniques. The data anonymisation becomes more and more important nowadays due to the explosion of data that has been made in recent years and continues even today. Access to large amounts of data, which are often produced from many different sources, although desirable, may raise important issues about protecting and preserving the anonymity of individuals and privacy of information concerning them. The removal of personal information from data (such as Name or Social Security number) does not guarantee preservation of anonymity because the combination of the remaining attributes with external, publicly available data may eventually lead to the identification of individuals.
To address these risks, the model k-anonymity was proposed. The purpose of the model is the generalization of data in an appropriate manner so that any combination of the characteristics of those which, if crossed by external sources can lead to the identification of the individual, to appear in data at least k times. There have been developed a large number of algorithms that aim to apply the model to relational data. In this thesis we will compare two anonymisation algorithms that perform local recoding and they are based on continuous partitioning data into subgroups.
Meanwhile, the ever-increasing size of data requires the use of distributed techniques for fast and efficient anonymisation of information. The distributed implementation will contribute to faster completion of the procedure, to managing very large volumes of data that would not be managed by a centralized execution, to the parallelization of process and the management of error at a much lower cost than a centralized execution.
In this diploma thesis, we propose a way of parallelizing the problem, so as to enable the distributed execution and then execute anonymisation algorithms, comparing their performance for different situations and characteristics of data anonymisation. |
en |
dc.description.statementofresponsibility |
Ιωάννης Κ. Γιαννακόπουλος |
el |
dc.language.iso |
el |
en |
dc.rights |
ETDFree-policy.xml |
en |
dc.subject |
Ανωνυμοποίηση |
el |
dc.subject |
Κατανεμημένα συστήματα |
el |
dc.subject |
Κατανεμημένα δεδομένα |
el |
dc.subject |
Anonymization |
en |
dc.subject |
Distributed systems |
en |
dc.subject |
K-anonymity |
en |
dc.subject |
Mondrian |
en |
dc.subject |
Topdown |
en |
dc.title |
Ανωνυμοποίηση σχεσιακών δεδομένων σε κατανεμημένα περιβάλλοντα |
el |
dc.type |
bachelorThesis |
el (en) |
dc.date.accepted |
2012-10-22 |
- |
dc.date.modified |
2012-11-23 |
- |
dc.contributor.advisorcommitteemember |
Τσουμάκος, Δημήτριος |
el |
dc.contributor.advisorcommitteemember |
Σελλής, Τιμολέων |
el |
dc.contributor.committeemember |
Κοζύρης, Νεκτάριος |
el |
dc.contributor.committeemember |
Τσουμάκος, Δημήτριος |
el |
dc.contributor.committeemember |
Σελλής, Τιμολέων |
el |
dc.contributor.department |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων |
el |
dc.date.recordmanipulation.recordcreated |
2013-02-08 |
- |
dc.date.recordmanipulation.recordmodified |
2013-02-08 |
- |