HEAL DSpace

Parkinson’s disease detection using voice recordings and Deep Learning

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βασιλοπούλου, Φωτεινή el
dc.contributor.author Vasilopoulou, Foteini en
dc.date.accessioned 2022-04-13T06:46:01Z
dc.date.available 2022-04-13T06:46:01Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/55085
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.22783
dc.rights Default License
dc.subject Parkinson’s disease en
dc.subject Vocal features en
dc.subject PyTorch-TabNet en
dc.subject Ensemble learning en
dc.subject Iinterpretability en
dc.subject Πάρκινσον el
dc.subject Ηχητικά χαρακτηριστικά el
dc.subject Ομαδοποιημένoι ταξινομητές el
dc.subject Ερμηνευσιμότητα el
dc.title Parkinson’s disease detection using voice recordings and Deep Learning en
heal.type bachelorThesis
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-11-08
heal.abstract Parkinson’s disease (PD) is a progressive neurodegenerative disease with significant social and economic impact. PD is characterized by motor and non-motor symptoms, with vocal disorders such as dysarthria, dysphonia, and hypophonia preceding common motor symptoms in approximately 90% of PD patients at the early stages of the disease. PD’s detection and diagnosis during the early stages are considered crucial for the progression and management of the disease. TabNet is a canonical DNN architecture that uses sequential attention and DNN building blocks to implement a Decision Tree-like output manifold with soft, instant-wise feature selection giving the model local and global interpretability. TabNet was trained with a vocal features dataset available from the UCI Machine Learning repository. The dataset includes extracted features from voice recordings gathered from 252 subjects (188 PD – 64 control), with each subject providing three samples of the sustained phonation of the vowel /a/. Due to the multiple samples per subject and the unbalanced number of healthy individuals and patients with PD in the dataset, ensemble learning and the Leave-One-Subject-Out cross-validation were used to train TabNet in order to keep it unbiased. TabNet outperforms the classifiers in the literature with average and maximum accuracy for every sample reaching 94.5% and 95.2%, respectively. The average and maximum values for F1-score and MCC were 96.3%, 96.8%, and 86%, 87.8%, respectively. When doing majority voting of the three samples to make a final prediction of every subject, the average and maximum observed results were 95.9% and 97.2% for accuracy, 97.3% and 98.1% for F1-score, 89.4% and 92.8% for MCC metric. en
heal.abstract Η νόσος του Πάρκινσον είναι μια προοδευτική νευροεκφυλιστική διαταραχή με σημαντικές κοινωνικές και οικονομικές επιπτώσεις, η οποία χαρακτηρίζεται από κινητικά και μη-κινητικά συμπτώματα. Διαταραχές σχετικές με την ομιλία όπως δυσαρθρία, δυσφωνία και υποφωνία εμφανίζονται στο 90% των ασθενών με Πάρκινσον στα πρώτα στάδια της νόσου. Η διάγνωση της ασϑένειας σε αρχικό στάδιο ϑεωρείται κρίσιμη για την εξέλιξη και την διαχείρισή της. Το TabNet είναι ένα μοντέλο βαθιάς μάϑησης που χρησιμοποιεί μηχανισμούς προσοχής και δομικά στοιχεία βαθιών νευρωνικών δικτύων για να δημιουργήσει μια αρχιτεκτονική που ακολουθεί τη λογική των δέντρων απόφασης. Η επιλογή των κυρίαρχων χαρακτηριστικών για την ταξινόμηση παρέχει στο μοντέλο τοπική και συνολική ερμηνευσιμότητα για κάϑε μεμονωμένο δείγμα εισόδου. Για την εκπαίδευση του μοντέλου χρησιμοποιήθηκε σετ δεδομένων διαθέσιμο από το UCI Machine Learning Repository, το οποίο περιλαμβανει χαρακτηριστικά από ηχητικές καταγραφές 252 ατόμων (188 ασθενών με Πάρκινσον και 64 υγειών ατόμων). Για κάϑε συμμετέχοντα το φωνήεν /α/ ηχογραφήθηκε τρεις φορές. Λόγω των πολλαπλών δειγμάτων ανά υποκείμενο και της ανισορροπίας μεταξύ ασθενών και υγειών, για την εκπαίδευση χρησιμοποιήθηκε η μέϑοδος ομαδοποιημένων ταξινομητών και η τεχνική Leave-OneSubject-Out cross-validation. Tο TabNet υπερισχύει των ταξινομητών που περιλαμβάνονται στη βιβλιογραφία, με μέση και μέγιστη ακρίβεια για την ταξινόμηση κάϑε δείγματος να φϑάνει το 94.5% και 95.2%, αντίστοιχα. Οι μέσες και μέγιστες τιμές για τις μετρικές F1-score και MCC προέκυψαν 96.3%, 96.8% και 86%, 87.8%, αντίστοιχα. Στην περίπτωση προβλέψεων για κάϑε συμμετέχοντα, με βάση τα τρία δείγματά του, ο μέσος όρος και η μέγιστη τιμή που προέκυψε ήταν 95.9% και 97.2% accuracy, 97.3% και 98.1% F1-score, 89.4% και 92.8% MCC el
heal.advisorName Νικήτα, Κωνσταντίνα el
heal.committeeMemberName Νικήτα, Κωνσταντίνα el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.committeeMemberName Κουτσούρης, Δημήτριος-Διονύσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Συστημάτων Μετάδοσης Πληροφορίας και Τεχνολογίας Υλικών el
heal.academicPublisherID ntua
heal.numberOfPages 86 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής