Σε πολλούς οργανισμούς, επιχειρήσεις ή δημόσιους φορείς, η συλλογή και διαχείριση προσωπικών δεδομένων αποτελεί ένα πολύτιμο εργαλείο. Με τη δημιουργία τέτοιων συλλογών συγκεντρώνεται σημαντική πληροφορία αναφορικά με τον πληθυσμό που συμμετέχει στα δεδομένα. Η δημοσίευση της πληροφορίας αυτής είναι ιδιαίτερα χρήσιμη για ερευνητικούς σκοπούς και στατιστικές μελέτες.
Η παρούσα εργασία ασχολείται με την διασφάλιση της ιδιωτικότητας σε συλλογές προσωπικών δεδομένων μέσω της k-ανωνυμίας. Εστιάζει σε σύνολα δεδομένων όπου τα διάφορα γνωρίσματα αντιπροσωπεύουν ένα κοινό πεδίο πληροφορίας, γεγονός που ερμηνεύεται με γνωρίσματα του ψευδο-αναγνωριστικού προερχόμενα από το ίδιο πεδίο τιμών.
Επιχειρούμε την προστασία της ιδιωτικότητας από απειλές με συναθροιστική γνώση πάνω στις τιμές των γνωρισμάτων του ψευδο-αναγνωριστικού, η οποία εκφράζεται μέσω κάποιας συναθροιστικής συνάρτησης.
Για το λόγο αυτό αναπτύσσουμε και εξετάζουμε αναδρομικό αλγόριθμο που υλοποιεί την k-ανωνυμοποίηση τoυ δοθέντος συνόλου δεδομένων, λαμβάνοντας υπόψη την συναθροιστική συνάρτηση για την εύρεση της κατάλληλης τοπικής γενίκευσης σε κάθε κλάση ισοδυναμίας.
Ο αλγόριθμος εγγυάται την ικανοποίηση της k-ανωνυμίας από τα δημοσιευμένα δεδομένα, ως προς την συναθροιστική συνάρτηση, την οποία αντίστοιχοι αλγόριθμοι αγνοούν. Διατηρεί περισσότερη πληροφορία στα δημοσιευμένα δεδομένα από άλλους αλγορίθμους k-ανωνυμοποίησης. Ακόμα, δίνει τη δυνατότητα επιλογής της θεωρούμενης γνώσης του επιτιθέμενου χαλαρώνοντας την εγγύηση της ανωνυμίας, έτσι ώστε να προσφέρει έναν αποδοτικό συνδυασμό ιδιωτικότητας και χρηστικότητας.
In many organizations, enterprises or public services, collecting and managing personal data is a valuable tool. By creating such collections, important information is gathered, regarding the population that participates in the dataset. Releasing this information is particularly useful for research and statistical studies.
This paper deals with ensuring privacy protection in collections of personal data by applying k-anonymity. We focus on datasets where various attributes represent the same kind of information, which is interpreted by a quasi-identifier set of attributes from the same domain.
We attempt to protect privacy from attacks with aggregate knowledge over the values of attributes coming from the quasi-identifier set, expressed by some aggregate function.
For this reason we develop and test a recursive algorithm that implements k-anonymization of the given dataset by taking into account the aggregate function, in order to find the appropriate local generalization in every equivalence class.
This algorithm guarantees k-anonymity protection with respect to the aggregate function value, which is not taken into account by other algorithms.
The algorithm preserves more information in the published dataset in comparison with classic k-anonymization algorithms. Furthermore, it gives the option to vary the attacker’s knowledge, relaxing the required security level, in order to return an efficient combination of privacy and utility.