HEAL DSpace

Μοντελοποίηση και ανάλυση χωροχρονικών επιδημιολογικών δεδομένων με τεχνικές μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Ζουριδάκη, Ραφαέλα el
dc.contributor.author Zouridaki, Rafaela en
dc.date.accessioned 2022-11-30T11:14:26Z
dc.date.available 2022-11-30T11:14:26Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56316
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24014
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μηχανική Μάθηση el
dc.subject Χρονοσειρές el
dc.subject Μοντέλα Πρόβλεψης el
dc.subject Βαρύτητα Μεταβλητών el
dc.subject Παλινδρόμηση el
dc.subject Machine Learning en
dc.subject Time Series Forecasting en
dc.subject Feature Importance en
dc.subject Evalution Metrics en
dc.subject Regression Models en
dc.title Μοντελοποίηση και ανάλυση χωροχρονικών επιδημιολογικών δεδομένων με τεχνικές μηχανικής μάθησης el
heal.type bachelorThesis
heal.secondaryTitle Modeling and Analysis of Spatiotemporal Epidemiological Data Using Machine Learning Techniques en
heal.classification Γεωπληροφορική el
heal.classification Μηχανική Μάθηση el
heal.classification Geoinformatics en
heal.classification Machine Learning el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-07-19
heal.abstract Η παρούσα διπλωματική εργασία έχει ως θέμα τη δημιουργία και ανάλυση μοντέλων χωροχρονικών επιδημιολογικών δεδομένων με χρήση τεχνικών μηχανικής μάθησης. Τα εν λόγω μοντέλα δημιουργούνται με αλγορίθμους μηχανικής μάθησης και προβλέπουν τα κρούσματα και τους θανάτους κορονοϊού για εννέα πόλεις. Ακόμη, μελετώνται εκείνες οι μεταβλητές οι οποίες διαδραματίζουν σημαντικό ρόλο στην πρόβλεψη. Τέλος, επιλέγεται εκείνο το μοντέλο το οποίο έχει παρουσιάσει την καλύτερη προσαρμογή στα δεδομένα. Τα τελευταία δύο χρόνια, ο πλανήτης έχει έρθει αντιμέτωπος με την πανδημία του κορονοϊού. Ένα μεγάλο μέρος της επιστημονικής κοινότητας έχει στρέψει το ενδιαφέρον της στη μελέτη, κατανόηση ακόμη και στην πρόβλεψη του φαινομένου του κορονοϊού. Συναντώνται αρκετά δημιουργηθέντα μοντέλα πρόβλεψης της διασποράς του κορονοϊού, αλλά και των θανάτων οι οποίοι αποδίδονται στον κορονοϊό. Επιπροσθέτως, γίνονται προσπάθειες προσδιορισμού των χαρακτηριστικών εκείνων τα οποία επηρεάζουν τη διάδοση και τους θανάτους. Έτσι, δημιουργείται η τρέχουσα εργασία, στην οποία παρουσιάζονται τα αποτελέσματα και η αξιολόγηση μοντέλων παλινδρόμησης και παρουσιάζονται εκείνα τα χαρακτηριστικά τα οποία φαίνεται να έχουν σημαντικό βάρος στις προβλέψεις. Όπως ήδη αναφέρθηκε, χρησιμοποιήθηκε ένα σετ δεδομένων για εννέα διαφορετικές πρωτεύουσες. Τα δεδομένα αυτά, αρχικά, οπτικοποιήθηκαν με σκοπό να ελεγχθούν ως προς την πληρότητά τους, αλλά και με σκοπό την καλύτερη ερμηνεία και κατανόηση της διακύμανσης και της πιθανής σχέσης ανάμεσα στη διάδοση και στους θανάτους κορονοϊού. Στη συνέχεια, δημιουργήθηκαν μοντέλα με χρήση έξι διαφορετικών αλγορίθμων. Συγκεκριμένα, χρησιμοποιήθηκε το Multiple Linear Regression, το Support Vector Regression, το LASSO, το Gaussian Process Regression, το Random Forest Regression και το XGBoost Regression. Στη συνέχεια, τα μοντέλα αξιολογήθηκαν βάσει των αποδόσεών τους, τόσο με χρήση μετρικών αξιολόγησης μοντέλων παλινδρόμησης, όσο και με τη χρήση διαγραμμάτων. Τέλος, εντοπίζονται τα βάρη εκάστης ανεξάρτητης μεταβλητής στην πρόβλεψη. Για τα μοντέλα Random Forest Regression και XGBoost Regression χρησιμοποιείται έτοιμος τρόπος υπολογισμού τους μέσω χρήσης βιβλιοθήκης της Python, ενώ για τα υπόλοιπα μοντέλα υπολογίζονται τα βάρη των συντελεστών. Από την παραπάνω ανάλυση, προκύπτει ότι τα καλύτερα αποτελέσματα, για την πλειονότητα των πόλεων, εμφανίζονται για το μοντέλο Random Forest Regression. Άρα, ως βέλτιστο μοντέλο επιλέγεται αυτό. Αρκετά ικανοποιητική απόδοση εμφάνισε και το μοντέλο του XGBoost Regressor. Επιπροσθέτως, οι μεταβλητές οι οποίες φαίνεται να επηρέασαν τις προβλέψεις σχετίζονται, κυρίως, με την κάλυψη των περιοχών σε βλάστηση, με ατμοσφαιρικούς ρύπους και με μετεωρολογικά φαινόμενα. Εν κατακλείδι, ως τελικό πόρισμα για τη μοντελοποίηση και την ανάλυση των χωροχρονικών επιδημιολογικών δεδομένων με τεχνικές μηχανικής μάθησης είναι ότι καλύτερη απόδοση εμφανίζουν αλγόριθμοι οι οποίοι χρησιμοποιούν δένδρα αποφάσεων και τα χαρακτηριστικά τα οποία επηρεάζουν τη διάδοση και τους θανάτους είναι κατεξοχήν η μεταβλητή της κάλυψης σε βλάστηση και εν συνεχεία, οι ατμοσφαιρικοί ρύποι και τα μετεωρολογικά φαινόμενα. el
heal.abstract This thesis aims to create and analyze models of spatiotemporal epidemiological data using Machine Learning techniques. These models are created using ML algorithms, while focusing on predictions of cases and deaths of Covid-19, for nine cities. In addition, feature importance for each model is being extracted, in order to determine the possible factors that influence the Covid-19 spread. Subsequently, best fit model is the one that represents the best predictions for both propagation rates and mortality rates, based on model evaluation metrics. Over the past two years, the pandemic of covid-19 has been decimating humanity. More and more scientists turn their interest to studying, understanding and predicting Covid-19 spread. In the existing literature, numerous prediction models for the spread and the mortality caused by covid-19 can be found. In addition, scientists show particular interest in appointing all possible features that affect the spread of covid. In this specific thesis, the results of the models’ prediction and their evaluation are presented, as well as the feature importance of each variable. In an endeavor to address the aforementioned issues, there is a vital need to understand the data set. Thus, firstly, a visualization is provided of the actual values of cases and deaths, for each city. Subsequently, six ML models were created. The algorithms used are Multiple Linear Regression, Support Vector Regression, LASSO, Gaussian Process Regression, Random Forest Regression, and XGBoost Regressor. Besides, regression evaluation metrics were utilized to evaluate the models’ performance. Lastly, the score for all the input features was computed. Random Forest and XGBoost have built-in feature importance, therefore the scikit-learn package was used aiming to reckon that score. As for the rest of the models, coefficients were used as a crude type of feature importance. The presented evidence conclude that the Random Forest was the model with the best performance. Furthermore, the key factors that influence the evolution trend of Covid-19 are related to urban vegetation, air pollutants such as SO2, NO2, O3, PMxx and meteorological conditions such as temperature, humidity, wind speed and precipitation. Finally, algorithms based on decision trees tend to have better performance than simpler algorithms such as Linear Regression, LASSO, SVR and GPR. Ultimately there is a strong association between urban vegetation and the spread of the pandemic. Similar relationship can be found with respect to air pollutants and meteorological factors and the spread of Covid-19. en
heal.advisorName Δουλαμης, Νικολαος el
heal.advisorName Doulamis, Nikolaos en
heal.committeeMemberName Γεωργόπουλος, Ανδρέας el
heal.committeeMemberName Καράντζαλος, Κωνσταντίνος el
heal.committeeMemberName Δουλάμης, Νικόλαος el
heal.committeeMemberName Doulamis, Nikolaos en
heal.committeeMemberName Karantzalos, Konstantinos en
heal.committeeMemberName Georgopoulos, Andreas en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Αγρονόμων και Τοπογράφων Μηχανικών el
heal.academicPublisherID ntua
heal.numberOfPages 300 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα