Ανωνυμοποίηση σχεσιακών δεδομένων σε κατανεμημένα περιβάλλοντα

Γιαννακόπουλος, Ιωάννης Κ.; Giannakopoulos, Ioannis K.

dc.contributor.advisor	Κοζύρης, Νεκτάριος	el
dc.contributor.author	Γιαννακόπουλος, Ιωάννης Κ.	el
dc.contributor.author	Giannakopoulos, Ioannis K.	en
dc.date.accessioned	2013-02-08T09:59:30Z
dc.date.available	2013-02-08T09:59:30Z
dc.date.copyright	2012-11-23	-
dc.date.issued	2013-02-08
dc.date.submitted	2012-11-23	-
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/7578
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.13822
dc.description	95 σ.	el
dc.description.abstract	Στην παρούσα διπλωματική εργασία εξετάζουμε το πρόβλημα της ανωνυμοποίησης σχεσιακών δεδομένων με χρήση κατανεμημένων τεχνικών. Η ανωνυμοποίηση δεδομένων αποκτά ολοένα και μεγαλύτερη σημασία στις μέρες μας, εξαιτίας της έκρηξης δεδομένων που έχει σημειωθεί τα τελευταία χρόνια και συνεχίζεται ακόμη και σήμερα. Η πρόσβαση σε μεγάλο όγκο δεδομένων που συχνά παράγονται από πολλές διαφορετικές πηγές αν και είναι επιθυμητή, μπορεί να εγείρει σημαντικά ζητήματα για την προστασία και τη διατήρηση της ανωνυμίας των ατόμων και της ιδιωτικότητας των πληροφοριών που τα αφορούν. Η αφαίρεση προσωπικών πληροφοριών από τα δεδομένα (όπως το Όνομα ή το ΑΦΜ) δεν εγγυάται τη διατήρηση της ανωνυμίας, αφού ο συνδυασμός των εναπομεινάντων γνωρισμάτων με εξωτερικά, δημοσίως διαθέσιμα δεδομένα μπορεί να οδηγήσει τελικά στην ταυτοποίηση των ατόμων. Για την αντιμετώπιση αυτών των κινδύνων έχει προταθεί το μοντέλο k-anonymity. Σκοπός του μοντέλου είναι η γενίκευση των δεδομένων με κατάλληλο τρόπο έτσι ώστε κάθε συνδυασμός των χαρακτηριστικών εκείνων, που αν διασταυρωθούν με εξωτερικές πηγές μπορούν να οδηγήσουν στην ταυτοποίηση του ατόμου, να εμφανίζονται στα δεδομένα τουλάχιστον k φορές. Έχει αναπτυχθεί ένας μεγάλος αριθμός αλγορίθμων που έχουν στόχο την εφαρμογή του μοντέλου σε σχεσιακά δεδομένα. Στην παρούσα εργασία θα συγκρίνουμε δυο αλγορίθμους ανωνυμοποίησης που εκτελούν local recoding και στηρίζονται στη συνεχή διαμέριση των δεδομένων σε υποομάδες. Παράλληλα, ο συνεχώς αυξανόμενος όγκος των δεδομένων καθιστά αναγκαία την χρησιμοποίηση κατανεμημένων τεχνικών για τη γρήγορη και αποδοτική ανωνυμοποίηση των πληροφοριών. Η κατανεμημένη εκτέλεση θα συμβάλλει στην ταχύτερη ολοκλήρωση της διαδικασίας, στη διαχείριση πολύ μεγάλου όγκου δεδομένων που δεν θα ήταν δυνατή από μια κεντρική εκτέλεση, στην παραλληλοποίηση της διαδικασία και στην διαχείριση των σφαλμάτων με πολύ μικρότερο κόστος σε σχέση με μια κεντρική εκτέλεση. Στην παρούσα εργασία προτείνουμε ένα τρόπο παραλληλοποίησης του προβλήματος, έτσι ώστε να είναι εφικτή η κατανεμημένη εκτέλεση και στη συνέχεια εκτελούμε τους αλγορίθμους ανωνυμοποίησης συγκρίνοντας την απόδοσή τους για διάφορες περιπτώσεις δεδομένων και χαρακτηριστικών της ανωνυμοποίησης.	el
dc.description.abstract	In this diploma thesis we consider the problem of anonymising relational data using distributed techniques. The data anonymisation becomes more and more important nowadays due to the explosion of data that has been made in recent years and continues even today. Access to large amounts of data, which are often produced from many different sources, although desirable, may raise important issues about protecting and preserving the anonymity of individuals and privacy of information concerning them. The removal of personal information from data (such as Name or Social Security number) does not guarantee preservation of anonymity because the combination of the remaining attributes with external, publicly available data may eventually lead to the identification of individuals. To address these risks, the model k-anonymity was proposed. The purpose of the model is the generalization of data in an appropriate manner so that any combination of the characteristics of those which, if crossed by external sources can lead to the identification of the individual, to appear in data at least k times. There have been developed a large number of algorithms that aim to apply the model to relational data. In this thesis we will compare two anonymisation algorithms that perform local recoding and they are based on continuous partitioning data into subgroups. Meanwhile, the ever-increasing size of data requires the use of distributed techniques for fast and efficient anonymisation of information. The distributed implementation will contribute to faster completion of the procedure, to managing very large volumes of data that would not be managed by a centralized execution, to the parallelization of process and the management of error at a much lower cost than a centralized execution. In this diploma thesis, we propose a way of parallelizing the problem, so as to enable the distributed execution and then execute anonymisation algorithms, comparing their performance for different situations and characteristics of data anonymisation.	en
dc.description.statementofresponsibility	Ιωάννης Κ. Γιαννακόπουλος	el
dc.language.iso	el	en
dc.rights	ETDFree-policy.xml	en
dc.subject	Ανωνυμοποίηση	el
dc.subject	Κατανεμημένα συστήματα	el
dc.subject	Κατανεμημένα δεδομένα	el
dc.subject	Anonymization	en
dc.subject	Distributed systems	en
dc.subject	K-anonymity	en
dc.subject	Mondrian	en
dc.subject	Topdown	en
dc.title	Ανωνυμοποίηση σχεσιακών δεδομένων σε κατανεμημένα περιβάλλοντα	el
dc.type	bachelorThesis	el (en)
dc.date.accepted	2012-10-22	-
dc.date.modified	2012-11-23	-
dc.contributor.advisorcommitteemember	Τσουμάκος, Δημήτριος	el
dc.contributor.advisorcommitteemember	Σελλής, Τιμολέων	el
dc.contributor.committeemember	Κοζύρης, Νεκτάριος	el
dc.contributor.committeemember	Τσουμάκος, Δημήτριος	el
dc.contributor.committeemember	Σελλής, Τιμολέων	el
dc.contributor.department	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων	el
dc.date.recordmanipulation.recordcreated	2013-02-08	-
dc.date.recordmanipulation.recordmodified	2013-02-08	-