HEAL DSpace

Ανωνυμοποίηση μεγάλων δεδομένων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Δημακόπουλος, Νικόλαος el
dc.contributor.author Dimakopoulos, Nikolaos en
dc.date.accessioned 2022-11-03T11:01:18Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56075
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.23773
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Ανωνυμοποίηση el
dc.subject Εξόρυξη Δεδομένων el
dc.subject Κ-ανωνυμία el
dc.subject Ομαδοποίηση el
dc.subject Μεγάλα δεδομένα el
dc.subject Απόρρητο el
dc.subject Anonymization en
dc.subject K-anonymity en
dc.subject Data mining en
dc.subject Clustering en
dc.subject Big data en
dc.subject Privacy en
dc.title Ανωνυμοποίηση μεγάλων δεδομένων el
dc.title Big Data Anonymization en
heal.type masterThesis
heal.classification Επιστήμη των Υπολογιστών el
heal.classification Computer Science en
heal.dateAvailable 2023-11-02T22:00:00Z
heal.language en
heal.access embargo
heal.recordProvider ntua el
heal.publicationDate 2022-07-07
heal.abstract Καθώς η τεχνολογία διαπερνά όλο και περισσότερες πτυχές της ζωής μας, κάθε ανθρώπινη δραστηριότητα αφήνει ένα ψηφιακό σημάδι σε κάποιο χώρο αποθήκευσης. Τεράστιοι όγκοι προσωπικών δεδομένων δημιουργούνται καθημερινά και σπάνια κάποιος γνωρίζει την έκταση των πληροφοριών που τηρούνται και υποβάλλονται σε επεξεργασία για λογαριασμό του/της. Αυτά τα προσωπικά δεδομένα εγείρουν σημαντικές ανησυχίες σχετικά με το απόρρητο των χρηστών, καθώς σημαντικές και ευαίσθητες λεπτομέρειες σχετικά με τη ζωή ενός ατόμου συλλέγονται και εκμεταλλεύονται από τρίτα πρόσωπα. Για παράδειγμα, οι ανακαλύψεις στη μηχανική μάθηση προέρχονται από τεχνικές εκμάθησης που απαιτούν μεγάλο όγκο δεδομένων εκπαίδευσης, ενώ τα ερευνητικά ιδρύματα συχνά χρησιμοποιούν και μοιράζονται δεδομένα που περιέχουν ευαίσθητες ή εμπιστευτικές πληροφορίες για διαφορετικούς ανθρώπους. Ομολογουμένως, δεδομένα υπάρχουν παντού. Ο κόσμος έχει μετατραπεί σε μια έκρηξη πληροφοριών και δεν πρέπει να αποτελεί έκπληξη, ειδικά σε μια εποχή που η αποθήκευση δεδομένων είναι φθηνή και προσβάσιμη. Ως αποτέλεσμα, η ανάγκη των εταιρειών για πληροφορίες αυξάνεται κάθε λεπτό. Οι εταιρείες πρέπει να γνωρίζουν όσο το δυνατόν περισσότερα για τους πελάτες τους. Ωστόσο, πώς μπορεί να επιτευχθεί αυτό χωρίς να διακυβεύεται η ιδιωτική ζωή των ατόμων; Πώς μπορούν οι εταιρείες να παρέχουν εξαιρετικές δυνατότητες και να διατηρήσουν το απόρρητο; Η ανάπτυξη τυπικών μοντέλων απορρήτου, όπως η k-ανωνυμία και το διαφορικό απόρρητο έχει βοηθήσει στην επίλυση αυτού του προβλήματος, έτσι υπάρχει ένας αυξανόμενος αριθμός οργανισμών που ανωνυμοποιούν δεδομένα για την προστασία ευαίσθητων πληροφοριών, όπως προσωπικές πληροφορίες, διάφορες εκδηλώσεις που συμμετέχει ένα χρήστης, πραγματική-ώρα τοποθεσίας κ.λπ. Η k-ανωνυμία είναι ένα σύνηθες μοντέλο απορρήτου που εφαρμόζεται για την προστασία προσωπικών δεδομένων των υποκειμένων σε σενάρια κοινής χρήσης δεδομένων και τις εγγυήσεις που μπορεί να παρέχει η k-ανωνυμία όταν χρησιμοποιείται για την ανωνυμοποίηση δεδομένων. Σε πολλά συστήματα διατήρησης της ιδιωτικής ζωής, ο τελικός στόχος είναι η ανωνυμία για των δεδομένων. Έτσι, μια έκδοση ενός συνόλου δεδομένων παρέχει προστασία k-ανωνυμίας, εάν οι πληροφορίες για κάθε άτομο που περιέχονται στην έκδοση δεν μπορούν να διακριθούν από τουλάχιστον άτομα k-1 των οποίων οι πληροφορίες εμφανίζονται επίσης στο σύνολο δεδομένων που κυκλοφόρησε. Η κύρια ιδέα του μοντέλου βασίζεται στην ιδέα ότι συνδυάζοντας σύνολα δεδομένων με παρόμοια χαρακτηριστικά, η αναγνώριση πληροφοριών για οποιοδήποτε από τα άτομα που συνεισφέρουν σε αυτά τα δεδομένα μπορεί να συγκαλυφθεί. Σε αυτή τη μελέτη, θα εφαρμοστεί ένας αλγόριθμος ομαδοποίησης βασισμένου σε δίσκο, ο οποίος εστιάζει στην ανωνυμοποίηση μεγάλων δεδομένων, με βάση το μοντέλο απορρήτου k-ανωνυμίας. el
heal.abstract As technology permeates more and more aspects of our lives, every human activity leaves a digital mark on some storage space. Vast amounts of personal data are explicitly created every day, and rarely does someone know the extent of the information being held and processed for him/her. This personal data raises important concerns about users' privacy, as important and sensitive details about an individual's life are collected and exploited by third parties. For example, the discoveries in machine learning come from learning techniques that require large amounts of training data, while research institutes often use and share data that contains sensitive or confidential information about different people. Admittedly, data is everywhere. The world has become an explosion of information, and it should not come as a surprise, especially when the data storage is cheap and accessible. As a result, corporations' need for information grows by the minute. Companies need to know as much as possible about their customers. Nonetheless, how can this be achieved without compromising the privacy of individuals? How can companies provide excellent features and maintain great privacy? The development of standard privacy models such as k-anonymity and differential privacy has helped solve this problem, so a growing number of organizations anonymize data to protect sensitive information, such as personal information, user events, and a person's real-time location, etc. This study will implement a disk-based clustering algorithm that focuses on big data anonymization based on the k-anonymity privacy model. K-anonymity is a standard privacy model applied to protect the data subjects' privacy in data sharing scenarios and the guarantees that k-anonymity can provide when used to anonymize data. The main concept of the model is based on the idea that by combining sets of data with similar attributes, identifying information about any one of the individuals contributing to that data can be obscured. In many privacy-preserving systems, the end goal is anonymity for the data subjects. So, a dataset release provides k-anonymity protection if the information for each person contained in the release cannot be distinguished from at least k-1 individuals whose information also appears in the released dataset. en
heal.advisorName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Τερροβίτης, Εμμανουήλ el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 108 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα