Ανάλυση και παραγωγή δεδομένων κίνησης νοσοκομειακού δικτύου με χρήση παραγωγικών μοντέλων μηχανικής μάθησης

Κρανιάς, Δημήτριος; Kranias, Dimitrios

dc.contributor.author	Κρανιάς, Δημήτριος	el
dc.contributor.author	Kranias, Dimitrios	en
dc.date.accessioned	2022-07-20T09:12:15Z
dc.date.available	2022-07-20T09:12:15Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/55440
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.23138
dc.rights	Default License
dc.subject	Διερευνητική ανάλυση δεδομένων	el
dc.subject	Παραγωγή δεδομένων	el
dc.subject	Γεννητικά ανταγωνιστικά δίκτυα	el
dc.subject	Συσταδοποίηση	el
dc.subject	Γκαουσιανά μοντέλα μείξης	el
dc.subject	Exploratory data analysis	en
dc.subject	Data generation	en
dc.subject	Generative adversarial networks	en
dc.subject	Variational autoencoders	en
dc.subject	Gaussian mixture models	en
dc.subject	Clustering	en
dc.title	Ανάλυση και παραγωγή δεδομένων κίνησης νοσοκομειακού δικτύου με χρήση παραγωγικών μοντέλων μηχανικής μάθησης	el
heal.type	bachelorThesis
heal.classification	Μηχανική μάθηση	el
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2022-03-08
heal.abstract	Η ανάγκη για την αντιμετώπιση του κινδύνου των κυβερνοεπιθέσεων στον τομέα της υγείας είναι ένα μείζον θέμα και χρήζει άμεσης αντιμετώπισης. Για να πραγματοποιηθεί αυτό υπάρχουν αρκετοί τρόποι, όμως αυτός που αποτέλεσε κίνητρο για την διπλωματική αυτή, ήταν η παρακολούθηση της κίνησης των διαφόρων χρηστών για τον εντοπισμό ασυνήθιστων συμπεριφορών. Για να επιτευχθεί αυτό, το σύνολο από διαθέσιμα πραγματικά νοσοκομειακά δεδομένα δεν επαρκεί και χρειάστηκαν συνθετικά, αληθοφανή δεδομένα για να το συμπληρώσουν. Αντικείμενο της παρούσας διπλωματικής αποτελεί η ανάλυση των πραγματικών νοσοκομειακών δεδομένων κίνησης και η παραγωγή συνθετικών δεδομένων με παραγωγικά μοντέλα μηχανικής μάθησης. Στο στάδιο της ανάλυσης, μετά την ανωνυμοποίηση των ευαίσθητων πληροφοριών, εξετάστηκαν οι κατανομές κάποιων πεδίων των δεδομένων ώστε να εξαχθούν χρήσιμα συμπεράσματα για αυτές. Στην συνέχεια, έγινε κατηγοριοποίηση ορισμένων χρηστών που χρησιμοποιούν νοσοκομειακές υπηρεσίες και από τους οποίους θα γίνει η παραγωγή δεδομένων στο τελικό βήμα. Έπειτα πραγματοποιήθηκε μια συσταδοποίηση αυτών των χρηστών (για κίνηση προς συγκεκριμένες υπηρεσίες) για τον έλεγχο του πόσο κοντά είναι οι χρήστες ίδιων υπηρεσιών. Τέλος, εκπαιδεύτηκαν διάφορα γεννητικά μοντέλα μηχανικής μάθησης, μεταξύ των οποίων και μοντέλα βαθιάς μάθησης (Γεννητικά Ανταγωνιστικά Δίκτυα και Variational Autoncoders), σε διάφορα υποσύνολα των δεδομένων. Με αυτά τα εκπαιδευμένα μοντέλα παρήχθησαν τα συνθετικά δεδομένα τα οποία και αξιολογήθηκαν με ορισμένες μεθόδους και μετρικές. Έτσι, προέκυψαν τα πλεονεκτήματα και τα μειονεκτήματα των μοντέλων και οι περιπτώσεις στις οποίες το καθένα θα ήταν χρήσιμο.	el
heal.abstract	The need for dealing with the danger of cyberattacks in healthcare is an important topic that requires immediate solutions. There are many ways to accomplish this, but the one that was the motivating factor for this thesis, was the monitoring of the traffic flow of various users in order to detect unusual behaviour. In order to achieve this, there was the need for synthetic, realistic data to complement existing real medical data. The subject of this study is the analysis of real medical data of NetFlow type and the generation of synthetic data with generative machine learning models. In the first part of the analysis, after the anonymization of sensitive data, the distributions of various features/columns of the dataset were examined, in order for useful conclusions to be drawn for them. Subsequently, certain users were categorized based on the usage of hospital services, in order to generate the synthetic data from them in the final step of the thesis. Afterward, a clustering of these users took place (based on traffic to certain services) to observe how similar the users of the same services are. Finally, several generative machine learning models were trained, among them some were deep learning models (Generative Adversarial Networks and Variational Autoencoders), in various subsets of the dataset. The synthetic data were generated with these trained models, which were evaluated with certain methods and metrics. That way, advantages and disadvantages of the models emerged, alongside the cases in which each of them could prove useful.	en
heal.advisorName	Ασκούνης, Δημήτριος	el
heal.committeeMemberName	Ασκούνης, Δημήτριος	el
heal.committeeMemberName	Ψαρράς, Ιωάννης	el
heal.committeeMemberName	Δούκας, Χρυσόστομος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρικών Βιομηχανικών Διατάξεων και Συστημάτων Αποφάσεων	el
heal.academicPublisherID	ntua
heal.numberOfPages	96 σ.	el
heal.fullTextAvailability	false