dc.contributor.author |
Κρανιάς, Δημήτριος
|
el |
dc.contributor.author |
Kranias, Dimitrios
|
en |
dc.date.accessioned |
2022-07-20T09:12:15Z |
|
dc.date.available |
2022-07-20T09:12:15Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/55440 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.23138 |
|
dc.rights |
Default License |
|
dc.subject |
Διερευνητική ανάλυση δεδομένων |
el |
dc.subject |
Παραγωγή δεδομένων |
el |
dc.subject |
Γεννητικά ανταγωνιστικά δίκτυα |
el |
dc.subject |
Συσταδοποίηση |
el |
dc.subject |
Γκαουσιανά μοντέλα μείξης |
el |
dc.subject |
Exploratory data analysis |
en |
dc.subject |
Data generation |
en |
dc.subject |
Generative adversarial networks |
en |
dc.subject |
Variational autoencoders |
en |
dc.subject |
Gaussian mixture models |
en |
dc.subject |
Clustering |
en |
dc.title |
Ανάλυση και παραγωγή δεδομένων κίνησης νοσοκομειακού δικτύου με χρήση παραγωγικών μοντέλων μηχανικής μάθησης |
el |
heal.type |
bachelorThesis |
|
heal.classification |
Μηχανική μάθηση |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2022-03-08 |
|
heal.abstract |
Η ανάγκη για την αντιμετώπιση του κινδύνου των κυβερνοεπιθέσεων στον τομέα της υγείας είναι ένα μείζον θέμα και χρήζει άμεσης αντιμετώπισης. Για να πραγματοποιηθεί αυτό υπάρχουν αρκετοί τρόποι, όμως αυτός που αποτέλεσε κίνητρο για την διπλωματική αυτή, ήταν η παρακολούθηση της κίνησης των διαφόρων χρηστών για τον εντοπισμό ασυνήθιστων συμπεριφορών. Για να επιτευχθεί αυτό, το σύνολο από διαθέσιμα πραγματικά νοσοκομειακά δεδομένα δεν επαρκεί και χρειάστηκαν συνθετικά, αληθοφανή δεδομένα για να το συμπληρώσουν.
Αντικείμενο της παρούσας διπλωματικής αποτελεί η ανάλυση των πραγματικών νοσοκομειακών δεδομένων κίνησης και η παραγωγή συνθετικών δεδομένων με παραγωγικά μοντέλα μηχανικής μάθησης. Στο στάδιο της ανάλυσης, μετά την ανωνυμοποίηση των ευαίσθητων πληροφοριών, εξετάστηκαν οι κατανομές κάποιων πεδίων των δεδομένων ώστε να εξαχθούν χρήσιμα συμπεράσματα για αυτές. Στην συνέχεια, έγινε κατηγοριοποίηση ορισμένων χρηστών που χρησιμοποιούν νοσοκομειακές υπηρεσίες και από τους οποίους θα γίνει η παραγωγή δεδομένων στο τελικό βήμα. Έπειτα πραγματοποιήθηκε μια συσταδοποίηση αυτών των χρηστών (για κίνηση προς συγκεκριμένες υπηρεσίες) για τον έλεγχο του πόσο κοντά είναι οι χρήστες ίδιων υπηρεσιών.
Τέλος, εκπαιδεύτηκαν διάφορα γεννητικά μοντέλα μηχανικής μάθησης, μεταξύ των οποίων και μοντέλα βαθιάς μάθησης (Γεννητικά Ανταγωνιστικά Δίκτυα και Variational Autoncoders), σε διάφορα υποσύνολα των δεδομένων. Με αυτά τα εκπαιδευμένα μοντέλα παρήχθησαν τα συνθετικά δεδομένα τα οποία και αξιολογήθηκαν με ορισμένες μεθόδους και μετρικές. Έτσι, προέκυψαν τα πλεονεκτήματα και τα μειονεκτήματα των μοντέλων και οι περιπτώσεις στις οποίες το καθένα θα ήταν χρήσιμο. |
el |
heal.abstract |
The need for dealing with the danger of cyberattacks in healthcare is an important topic that requires immediate solutions. There are many ways to accomplish this, but the one that was the motivating factor for this thesis, was the monitoring of the traffic flow of various users in order to detect unusual behaviour. In order to achieve this, there was the need for synthetic, realistic data to complement existing real medical data.
The subject of this study is the analysis of real medical data of NetFlow type and the generation of synthetic data with generative machine learning models. In the first part of the analysis, after the anonymization of sensitive data, the distributions of various features/columns of the dataset were examined, in order for useful conclusions to be drawn for them. Subsequently, certain users were categorized based on the usage of hospital services, in order to generate the synthetic data from them in the final step of the thesis. Afterward, a clustering of these users took place (based on traffic to certain services) to observe how similar the users of the same services are.
Finally, several generative machine learning models were trained, among them some were deep learning models (Generative Adversarial Networks and Variational Autoencoders), in various subsets of the dataset. The synthetic data were generated with these trained models, which were evaluated with certain methods and metrics. That way, advantages and disadvantages of the models emerged, alongside the cases in which each of them could prove useful. |
en |
heal.advisorName |
Ασκούνης, Δημήτριος |
el |
heal.committeeMemberName |
Ασκούνης, Δημήτριος |
el |
heal.committeeMemberName |
Ψαρράς, Ιωάννης |
el |
heal.committeeMemberName |
Δούκας, Χρυσόστομος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρικών Βιομηχανικών Διατάξεων και Συστημάτων Αποφάσεων |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
96 σ. |
el |
heal.fullTextAvailability |
false |
|