dc.contributor.author | Δημακόπουλος, Νικόλαος | el |
dc.contributor.author | Dimakopoulos, Nikolaos | en |
dc.date.accessioned | 2022-11-03T11:01:18Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/56075 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.23773 | |
dc.description | Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" | el |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Ανωνυμοποίηση | el |
dc.subject | Εξόρυξη Δεδομένων | el |
dc.subject | Κ-ανωνυμία | el |
dc.subject | Ομαδοποίηση | el |
dc.subject | Μεγάλα δεδομένα | el |
dc.subject | Απόρρητο | el |
dc.subject | Anonymization | en |
dc.subject | K-anonymity | en |
dc.subject | Data mining | en |
dc.subject | Clustering | en |
dc.subject | Big data | en |
dc.subject | Privacy | en |
dc.title | Ανωνυμοποίηση μεγάλων δεδομένων | el |
dc.title | Big Data Anonymization | en |
heal.type | masterThesis | |
heal.classification | Επιστήμη των Υπολογιστών | el |
heal.classification | Computer Science | en |
heal.dateAvailable | 2023-11-02T22:00:00Z | |
heal.language | en | |
heal.access | embargo | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2022-07-07 | |
heal.abstract | Καθώς η τεχνολογία διαπερνά όλο και περισσότερες πτυχές της ζωής μας, κάθε ανθρώπινη δραστηριότητα αφήνει ένα ψηφιακό σημάδι σε κάποιο χώρο αποθήκευσης. Τεράστιοι όγκοι προσωπικών δεδομένων δημιουργούνται καθημερινά και σπάνια κάποιος γνωρίζει την έκταση των πληροφοριών που τηρούνται και υποβάλλονται σε επεξεργασία για λογαριασμό του/της. Αυτά τα προσωπικά δεδομένα εγείρουν σημαντικές ανησυχίες σχετικά με το απόρρητο των χρηστών, καθώς σημαντικές και ευαίσθητες λεπτομέρειες σχετικά με τη ζωή ενός ατόμου συλλέγονται και εκμεταλλεύονται από τρίτα πρόσωπα. Για παράδειγμα, οι ανακαλύψεις στη μηχανική μάθηση προέρχονται από τεχνικές εκμάθησης που απαιτούν μεγάλο όγκο δεδομένων εκπαίδευσης, ενώ τα ερευνητικά ιδρύματα συχνά χρησιμοποιούν και μοιράζονται δεδομένα που περιέχουν ευαίσθητες ή εμπιστευτικές πληροφορίες για διαφορετικούς ανθρώπους. Ομολογουμένως, δεδομένα υπάρχουν παντού. Ο κόσμος έχει μετατραπεί σε μια έκρηξη πληροφοριών και δεν πρέπει να αποτελεί έκπληξη, ειδικά σε μια εποχή που η αποθήκευση δεδομένων είναι φθηνή και προσβάσιμη. Ως αποτέλεσμα, η ανάγκη των εταιρειών για πληροφορίες αυξάνεται κάθε λεπτό. Οι εταιρείες πρέπει να γνωρίζουν όσο το δυνατόν περισσότερα για τους πελάτες τους. Ωστόσο, πώς μπορεί να επιτευχθεί αυτό χωρίς να διακυβεύεται η ιδιωτική ζωή των ατόμων; Πώς μπορούν οι εταιρείες να παρέχουν εξαιρετικές δυνατότητες και να διατηρήσουν το απόρρητο; Η ανάπτυξη τυπικών μοντέλων απορρήτου, όπως η k-ανωνυμία και το διαφορικό απόρρητο έχει βοηθήσει στην επίλυση αυτού του προβλήματος, έτσι υπάρχει ένας αυξανόμενος αριθμός οργανισμών που ανωνυμοποιούν δεδομένα για την προστασία ευαίσθητων πληροφοριών, όπως προσωπικές πληροφορίες, διάφορες εκδηλώσεις που συμμετέχει ένα χρήστης, πραγματική-ώρα τοποθεσίας κ.λπ. Η k-ανωνυμία είναι ένα σύνηθες μοντέλο απορρήτου που εφαρμόζεται για την προστασία προσωπικών δεδομένων των υποκειμένων σε σενάρια κοινής χρήσης δεδομένων και τις εγγυήσεις που μπορεί να παρέχει η k-ανωνυμία όταν χρησιμοποιείται για την ανωνυμοποίηση δεδομένων. Σε πολλά συστήματα διατήρησης της ιδιωτικής ζωής, ο τελικός στόχος είναι η ανωνυμία για των δεδομένων. Έτσι, μια έκδοση ενός συνόλου δεδομένων παρέχει προστασία k-ανωνυμίας, εάν οι πληροφορίες για κάθε άτομο που περιέχονται στην έκδοση δεν μπορούν να διακριθούν από τουλάχιστον άτομα k-1 των οποίων οι πληροφορίες εμφανίζονται επίσης στο σύνολο δεδομένων που κυκλοφόρησε. Η κύρια ιδέα του μοντέλου βασίζεται στην ιδέα ότι συνδυάζοντας σύνολα δεδομένων με παρόμοια χαρακτηριστικά, η αναγνώριση πληροφοριών για οποιοδήποτε από τα άτομα που συνεισφέρουν σε αυτά τα δεδομένα μπορεί να συγκαλυφθεί. Σε αυτή τη μελέτη, θα εφαρμοστεί ένας αλγόριθμος ομαδοποίησης βασισμένου σε δίσκο, ο οποίος εστιάζει στην ανωνυμοποίηση μεγάλων δεδομένων, με βάση το μοντέλο απορρήτου k-ανωνυμίας. | el |
heal.abstract | As technology permeates more and more aspects of our lives, every human activity leaves a digital mark on some storage space. Vast amounts of personal data are explicitly created every day, and rarely does someone know the extent of the information being held and processed for him/her. This personal data raises important concerns about users' privacy, as important and sensitive details about an individual's life are collected and exploited by third parties. For example, the discoveries in machine learning come from learning techniques that require large amounts of training data, while research institutes often use and share data that contains sensitive or confidential information about different people. Admittedly, data is everywhere. The world has become an explosion of information, and it should not come as a surprise, especially when the data storage is cheap and accessible. As a result, corporations' need for information grows by the minute. Companies need to know as much as possible about their customers. Nonetheless, how can this be achieved without compromising the privacy of individuals? How can companies provide excellent features and maintain great privacy? The development of standard privacy models such as k-anonymity and differential privacy has helped solve this problem, so a growing number of organizations anonymize data to protect sensitive information, such as personal information, user events, and a person's real-time location, etc. This study will implement a disk-based clustering algorithm that focuses on big data anonymization based on the k-anonymity privacy model. K-anonymity is a standard privacy model applied to protect the data subjects' privacy in data sharing scenarios and the guarantees that k-anonymity can provide when used to anonymize data. The main concept of the model is based on the idea that by combining sets of data with similar attributes, identifying information about any one of the individuals contributing to that data can be obscured. In many privacy-preserving systems, the end goal is anonymity for the data subjects. So, a dataset release provides k-anonymity protection if the information for each person contained in the release cannot be distinguished from at least k-1 individuals whose information also appears in the released dataset. | en |
heal.advisorName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | el |
heal.committeeMemberName | Κόλλιας, Στέφανος | el |
heal.committeeMemberName | Τερροβίτης, Εμμανουήλ | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 108 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: