HEAL DSpace

Ανωνυμοποίηση σχεσιακών δεδομένων σε κατανεμημένα περιβάλλοντα

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.advisor Κοζύρης, Νεκτάριος el
dc.contributor.author Γιαννακόπουλος, Ιωάννης Κ. el
dc.contributor.author Giannakopoulos, Ioannis K. en
dc.date.accessioned 2013-02-08T09:59:30Z
dc.date.available 2013-02-08T09:59:30Z
dc.date.copyright 2012-11-23 -
dc.date.issued 2013-02-08
dc.date.submitted 2012-11-23 -
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/7578
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.13822
dc.description 95 σ. el
dc.description.abstract Στην παρούσα διπλωματική εργασία εξετάζουμε το πρόβλημα της ανωνυμοποίησης σχεσιακών δεδομένων με χρήση κατανεμημένων τεχνικών. Η ανωνυμοποίηση δεδομένων αποκτά ολοένα και μεγαλύτερη σημασία στις μέρες μας, εξαιτίας της έκρηξης δεδομένων που έχει σημειωθεί τα τελευταία χρόνια και συνεχίζεται ακόμη και σήμερα. Η πρόσβαση σε μεγάλο όγκο δεδομένων που συχνά παράγονται από πολλές διαφορετικές πηγές αν και είναι επιθυμητή, μπορεί να εγείρει σημαντικά ζητήματα για την προστασία και τη διατήρηση της ανωνυμίας των ατόμων και της ιδιωτικότητας των πληροφοριών που τα αφορούν. Η αφαίρεση προσωπικών πληροφοριών από τα δεδομένα (όπως το Όνομα ή το ΑΦΜ) δεν εγγυάται τη διατήρηση της ανωνυμίας, αφού ο συνδυασμός των εναπομεινάντων γνωρισμάτων με εξωτερικά, δημοσίως διαθέσιμα δεδομένα μπορεί να οδηγήσει τελικά στην ταυτοποίηση των ατόμων. Για την αντιμετώπιση αυτών των κινδύνων έχει προταθεί το μοντέλο k-anonymity. Σκοπός του μοντέλου είναι η γενίκευση των δεδομένων με κατάλληλο τρόπο έτσι ώστε κάθε συνδυασμός των χαρακτηριστικών εκείνων, που αν διασταυρωθούν με εξωτερικές πηγές μπορούν να οδηγήσουν στην ταυτοποίηση του ατόμου, να εμφανίζονται στα δεδομένα τουλάχιστον k φορές. Έχει αναπτυχθεί ένας μεγάλος αριθμός αλγορίθμων που έχουν στόχο την εφαρμογή του μοντέλου σε σχεσιακά δεδομένα. Στην παρούσα εργασία θα συγκρίνουμε δυο αλγορίθμους ανωνυμοποίησης που εκτελούν local recoding και στηρίζονται στη συνεχή διαμέριση των δεδομένων σε υποομάδες. Παράλληλα, ο συνεχώς αυξανόμενος όγκος των δεδομένων καθιστά αναγκαία την χρησιμοποίηση κατανεμημένων τεχνικών για τη γρήγορη και αποδοτική ανωνυμοποίηση των πληροφοριών. Η κατανεμημένη εκτέλεση θα συμβάλλει στην ταχύτερη ολοκλήρωση της διαδικασίας, στη διαχείριση πολύ μεγάλου όγκου δεδομένων που δεν θα ήταν δυνατή από μια κεντρική εκτέλεση, στην παραλληλοποίηση της διαδικασία και στην διαχείριση των σφαλμάτων με πολύ μικρότερο κόστος σε σχέση με μια κεντρική εκτέλεση. Στην παρούσα εργασία προτείνουμε ένα τρόπο παραλληλοποίησης του προβλήματος, έτσι ώστε να είναι εφικτή η κατανεμημένη εκτέλεση και στη συνέχεια εκτελούμε τους αλγορίθμους ανωνυμοποίησης συγκρίνοντας την απόδοσή τους για διάφορες περιπτώσεις δεδομένων και χαρακτηριστικών της ανωνυμοποίησης. el
dc.description.abstract In this diploma thesis we consider the problem of anonymising relational data using distributed techniques. The data anonymisation becomes more and more important nowadays due to the explosion of data that has been made in recent years and continues even today. Access to large amounts of data, which are often produced from many different sources, although desirable, may raise important issues about protecting and preserving the anonymity of individuals and privacy of information concerning them. The removal of personal information from data (such as Name or Social Security number) does not guarantee preservation of anonymity because the combination of the remaining attributes with external, publicly available data may eventually lead to the identification of individuals. To address these risks, the model k-anonymity was proposed. The purpose of the model is the generalization of data in an appropriate manner so that any combination of the characteristics of those which, if crossed by external sources can lead to the identification of the individual, to appear in data at least k times. There have been developed a large number of algorithms that aim to apply the model to relational data. In this thesis we will compare two anonymisation algorithms that perform local recoding and they are based on continuous partitioning data into subgroups. Meanwhile, the ever-increasing size of data requires the use of distributed techniques for fast and efficient anonymisation of information. The distributed implementation will contribute to faster completion of the procedure, to managing very large volumes of data that would not be managed by a centralized execution, to the parallelization of process and the management of error at a much lower cost than a centralized execution. In this diploma thesis, we propose a way of parallelizing the problem, so as to enable the distributed execution and then execute anonymisation algorithms, comparing their performance for different situations and characteristics of data anonymisation. en
dc.description.statementofresponsibility Ιωάννης Κ. Γιαννακόπουλος el
dc.language.iso el en
dc.rights ETDFree-policy.xml en
dc.subject Ανωνυμοποίηση el
dc.subject Κατανεμημένα συστήματα el
dc.subject Κατανεμημένα δεδομένα el
dc.subject Anonymization en
dc.subject Distributed systems en
dc.subject K-anonymity en
dc.subject Mondrian en
dc.subject Topdown en
dc.title Ανωνυμοποίηση σχεσιακών δεδομένων σε κατανεμημένα περιβάλλοντα el
dc.type bachelorThesis el (en)
dc.date.accepted 2012-10-22 -
dc.date.modified 2012-11-23 -
dc.contributor.advisorcommitteemember Τσουμάκος, Δημήτριος el
dc.contributor.advisorcommitteemember Σελλής, Τιμολέων el
dc.contributor.committeemember Κοζύρης, Νεκτάριος el
dc.contributor.committeemember Τσουμάκος, Δημήτριος el
dc.contributor.committeemember Σελλής, Τιμολέων el
dc.contributor.department Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων el
dc.date.recordmanipulation.recordcreated 2013-02-08 -
dc.date.recordmanipulation.recordmodified 2013-02-08 -


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής