Parkinson’s disease detection using voice recordings and Deep Learning

Βασιλοπούλου, Φωτεινή; Vasilopoulou, Foteini

dc.contributor.author	Βασιλοπούλου, Φωτεινή	el
dc.contributor.author	Vasilopoulou, Foteini	en
dc.date.accessioned	2022-04-13T06:46:01Z
dc.date.available	2022-04-13T06:46:01Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/55085
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.22783
dc.rights	Default License
dc.subject	Parkinson’s disease	en
dc.subject	Vocal features	en
dc.subject	PyTorch-TabNet	en
dc.subject	Ensemble learning	en
dc.subject	Iinterpretability	en
dc.subject	Πάρκινσον	el
dc.subject	Ηχητικά χαρακτηριστικά	el
dc.subject	Ομαδοποιημένoι ταξινομητές	el
dc.subject	Ερμηνευσιμότητα	el
dc.title	Parkinson’s disease detection using voice recordings and Deep Learning	en
heal.type	bachelorThesis
heal.classification	Machine Learning	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2021-11-08
heal.abstract	Parkinson’s disease (PD) is a progressive neurodegenerative disease with significant social and economic impact. PD is characterized by motor and non-motor symptoms, with vocal disorders such as dysarthria, dysphonia, and hypophonia preceding common motor symptoms in approximately 90% of PD patients at the early stages of the disease. PD’s detection and diagnosis during the early stages are considered crucial for the progression and management of the disease. TabNet is a canonical DNN architecture that uses sequential attention and DNN building blocks to implement a Decision Tree-like output manifold with soft, instant-wise feature selection giving the model local and global interpretability. TabNet was trained with a vocal features dataset available from the UCI Machine Learning repository. The dataset includes extracted features from voice recordings gathered from 252 subjects (188 PD – 64 control), with each subject providing three samples of the sustained phonation of the vowel /a/. Due to the multiple samples per subject and the unbalanced number of healthy individuals and patients with PD in the dataset, ensemble learning and the Leave-One-Subject-Out cross-validation were used to train TabNet in order to keep it unbiased. TabNet outperforms the classifiers in the literature with average and maximum accuracy for every sample reaching 94.5% and 95.2%, respectively. The average and maximum values for F1-score and MCC were 96.3%, 96.8%, and 86%, 87.8%, respectively. When doing majority voting of the three samples to make a final prediction of every subject, the average and maximum observed results were 95.9% and 97.2% for accuracy, 97.3% and 98.1% for F1-score, 89.4% and 92.8% for MCC metric.	en
heal.abstract	Η νόσος του Πάρκινσον είναι μια προοδευτική νευροεκφυλιστική διαταραχή με σημαντικές κοινωνικές και οικονομικές επιπτώσεις, η οποία χαρακτηρίζεται από κινητικά και μη-κινητικά συμπτώματα. Διαταραχές σχετικές με την ομιλία όπως δυσαρθρία, δυσφωνία και υποφωνία εμφανίζονται στο 90% των ασθενών με Πάρκινσον στα πρώτα στάδια της νόσου. Η διάγνωση της ασϑένειας σε αρχικό στάδιο ϑεωρείται κρίσιμη για την εξέλιξη και την διαχείρισή της. Το TabNet είναι ένα μοντέλο βαθιάς μάϑησης που χρησιμοποιεί μηχανισμούς προσοχής και δομικά στοιχεία βαθιών νευρωνικών δικτύων για να δημιουργήσει μια αρχιτεκτονική που ακολουθεί τη λογική των δέντρων απόφασης. Η επιλογή των κυρίαρχων χαρακτηριστικών για την ταξινόμηση παρέχει στο μοντέλο τοπική και συνολική ερμηνευσιμότητα για κάϑε μεμονωμένο δείγμα εισόδου. Για την εκπαίδευση του μοντέλου χρησιμοποιήθηκε σετ δεδομένων διαθέσιμο από το UCI Machine Learning Repository, το οποίο περιλαμβανει χαρακτηριστικά από ηχητικές καταγραφές 252 ατόμων (188 ασθενών με Πάρκινσον και 64 υγειών ατόμων). Για κάϑε συμμετέχοντα το φωνήεν /α/ ηχογραφήθηκε τρεις φορές. Λόγω των πολλαπλών δειγμάτων ανά υποκείμενο και της ανισορροπίας μεταξύ ασθενών και υγειών, για την εκπαίδευση χρησιμοποιήθηκε η μέϑοδος ομαδοποιημένων ταξινομητών και η τεχνική Leave-OneSubject-Out cross-validation. Tο TabNet υπερισχύει των ταξινομητών που περιλαμβάνονται στη βιβλιογραφία, με μέση και μέγιστη ακρίβεια για την ταξινόμηση κάϑε δείγματος να φϑάνει το 94.5% και 95.2%, αντίστοιχα. Οι μέσες και μέγιστες τιμές για τις μετρικές F1-score και MCC προέκυψαν 96.3%, 96.8% και 86%, 87.8%, αντίστοιχα. Στην περίπτωση προβλέψεων για κάϑε συμμετέχοντα, με βάση τα τρία δείγματά του, ο μέσος όρος και η μέγιστη τιμή που προέκυψε ήταν 95.9% και 97.2% accuracy, 97.3% και 98.1% F1-score, 89.4% και 92.8% MCC	el
heal.advisorName	Νικήτα, Κωνσταντίνα	el
heal.committeeMemberName	Νικήτα, Κωνσταντίνα	el
heal.committeeMemberName	Σταφυλοπάτης, Ανδρέας-Γεώργιος	el
heal.committeeMemberName	Κουτσούρης, Δημήτριος-Διονύσιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών	el
heal.academicPublisherID	ntua
heal.numberOfPages	86 σ.	el
heal.fullTextAvailability	false