Ανωνυμοποίηση μεγάλων δεδομένων

Δημακόπουλος, Νικόλαος; Dimakopoulos, Nikolaos

dc.contributor.author	Δημακόπουλος, Νικόλαος	el
dc.contributor.author	Dimakopoulos, Nikolaos	en
dc.date.accessioned	2022-11-03T11:01:18Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/56075
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.23773
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Ανωνυμοποίηση	el
dc.subject	Εξόρυξη Δεδομένων	el
dc.subject	Κ-ανωνυμία	el
dc.subject	Ομαδοποίηση	el
dc.subject	Μεγάλα δεδομένα	el
dc.subject	Απόρρητο	el
dc.subject	Anonymization	en
dc.subject	K-anonymity	en
dc.subject	Data mining	en
dc.subject	Clustering	en
dc.subject	Big data	en
dc.subject	Privacy	en
dc.title	Ανωνυμοποίηση μεγάλων δεδομένων	el
dc.title	Big Data Anonymization	en
heal.type	masterThesis
heal.classification	Επιστήμη των Υπολογιστών	el
heal.classification	Computer Science	en
heal.dateAvailable	2023-11-02T22:00:00Z
heal.language	en
heal.access	embargo
heal.recordProvider	ntua	el
heal.publicationDate	2022-07-07
heal.abstract	Καθώς η τεχνολογία διαπερνά όλο και περισσότερες πτυχές της ζωής μας, κάθε ανθρώπινη δραστηριότητα αφήνει ένα ψηφιακό σημάδι σε κάποιο χώρο αποθήκευσης. Τεράστιοι όγκοι προσωπικών δεδομένων δημιουργούνται καθημερινά και σπάνια κάποιος γνωρίζει την έκταση των πληροφοριών που τηρούνται και υποβάλλονται σε επεξεργασία για λογαριασμό του/της. Αυτά τα προσωπικά δεδομένα εγείρουν σημαντικές ανησυχίες σχετικά με το απόρρητο των χρηστών, καθώς σημαντικές και ευαίσθητες λεπτομέρειες σχετικά με τη ζωή ενός ατόμου συλλέγονται και εκμεταλλεύονται από τρίτα πρόσωπα. Για παράδειγμα, οι ανακαλύψεις στη μηχανική μάθηση προέρχονται από τεχνικές εκμάθησης που απαιτούν μεγάλο όγκο δεδομένων εκπαίδευσης, ενώ τα ερευνητικά ιδρύματα συχνά χρησιμοποιούν και μοιράζονται δεδομένα που περιέχουν ευαίσθητες ή εμπιστευτικές πληροφορίες για διαφορετικούς ανθρώπους. Ομολογουμένως, δεδομένα υπάρχουν παντού. Ο κόσμος έχει μετατραπεί σε μια έκρηξη πληροφοριών και δεν πρέπει να αποτελεί έκπληξη, ειδικά σε μια εποχή που η αποθήκευση δεδομένων είναι φθηνή και προσβάσιμη. Ως αποτέλεσμα, η ανάγκη των εταιρειών για πληροφορίες αυξάνεται κάθε λεπτό. Οι εταιρείες πρέπει να γνωρίζουν όσο το δυνατόν περισσότερα για τους πελάτες τους. Ωστόσο, πώς μπορεί να επιτευχθεί αυτό χωρίς να διακυβεύεται η ιδιωτική ζωή των ατόμων; Πώς μπορούν οι εταιρείες να παρέχουν εξαιρετικές δυνατότητες και να διατηρήσουν το απόρρητο; Η ανάπτυξη τυπικών μοντέλων απορρήτου, όπως η k-ανωνυμία και το διαφορικό απόρρητο έχει βοηθήσει στην επίλυση αυτού του προβλήματος, έτσι υπάρχει ένας αυξανόμενος αριθμός οργανισμών που ανωνυμοποιούν δεδομένα για την προστασία ευαίσθητων πληροφοριών, όπως προσωπικές πληροφορίες, διάφορες εκδηλώσεις που συμμετέχει ένα χρήστης, πραγματική-ώρα τοποθεσίας κ.λπ. Η k-ανωνυμία είναι ένα σύνηθες μοντέλο απορρήτου που εφαρμόζεται για την προστασία προσωπικών δεδομένων των υποκειμένων σε σενάρια κοινής χρήσης δεδομένων και τις εγγυήσεις που μπορεί να παρέχει η k-ανωνυμία όταν χρησιμοποιείται για την ανωνυμοποίηση δεδομένων. Σε πολλά συστήματα διατήρησης της ιδιωτικής ζωής, ο τελικός στόχος είναι η ανωνυμία για των δεδομένων. Έτσι, μια έκδοση ενός συνόλου δεδομένων παρέχει προστασία k-ανωνυμίας, εάν οι πληροφορίες για κάθε άτομο που περιέχονται στην έκδοση δεν μπορούν να διακριθούν από τουλάχιστον άτομα k-1 των οποίων οι πληροφορίες εμφανίζονται επίσης στο σύνολο δεδομένων που κυκλοφόρησε. Η κύρια ιδέα του μοντέλου βασίζεται στην ιδέα ότι συνδυάζοντας σύνολα δεδομένων με παρόμοια χαρακτηριστικά, η αναγνώριση πληροφοριών για οποιοδήποτε από τα άτομα που συνεισφέρουν σε αυτά τα δεδομένα μπορεί να συγκαλυφθεί. Σε αυτή τη μελέτη, θα εφαρμοστεί ένας αλγόριθμος ομαδοποίησης βασισμένου σε δίσκο, ο οποίος εστιάζει στην ανωνυμοποίηση μεγάλων δεδομένων, με βάση το μοντέλο απορρήτου k-ανωνυμίας.	el
heal.abstract	As technology permeates more and more aspects of our lives, every human activity leaves a digital mark on some storage space. Vast amounts of personal data are explicitly created every day, and rarely does someone know the extent of the information being held and processed for him/her. This personal data raises important concerns about users' privacy, as important and sensitive details about an individual's life are collected and exploited by third parties. For example, the discoveries in machine learning come from learning techniques that require large amounts of training data, while research institutes often use and share data that contains sensitive or confidential information about different people. Admittedly, data is everywhere. The world has become an explosion of information, and it should not come as a surprise, especially when the data storage is cheap and accessible. As a result, corporations' need for information grows by the minute. Companies need to know as much as possible about their customers. Nonetheless, how can this be achieved without compromising the privacy of individuals? How can companies provide excellent features and maintain great privacy? The development of standard privacy models such as k-anonymity and differential privacy has helped solve this problem, so a growing number of organizations anonymize data to protect sensitive information, such as personal information, user events, and a person's real-time location, etc. This study will implement a disk-based clustering algorithm that focuses on big data anonymization based on the k-anonymity privacy model. K-anonymity is a standard privacy model applied to protect the data subjects' privacy in data sharing scenarios and the guarantees that k-anonymity can provide when used to anonymize data. The main concept of the model is based on the idea that by combining sets of data with similar attributes, identifying information about any one of the individuals contributing to that data can be obscured. In many privacy-preserving systems, the end goal is anonymity for the data subjects. So, a dataset release provides k-anonymity protection if the information for each person contained in the release cannot be distinguished from at least k-1 individuals whose information also appears in the released dataset.	en
heal.advisorName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Κόλλιας, Στέφανος	el
heal.committeeMemberName	Τερροβίτης, Εμμανουήλ	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	108 σ.	el
heal.fullTextAvailability	false