dc.contributor.author |
Δημητριάδης, Αλέξανδρος
|
el |
dc.contributor.author |
Dimitriadis, Alexandros
|
en |
dc.date.accessioned |
2025-04-04T07:40:46Z |
|
dc.date.available |
2025-04-04T07:40:46Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/61625 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.29321 |
|
dc.rights |
Default License |
|
dc.subject |
Surgical Gesture Recognition |
en |
dc.subject |
Robotic Surgery |
en |
dc.subject |
JIGSAWS |
en |
dc.subject |
Kinematic Data |
en |
dc.subject |
Αναγνώριση Ρομποτικών Χειρουργικών Κινήσεων |
el |
dc.subject |
Ρομποτική Χειρουργική |
el |
dc.subject |
Machine Learning |
en |
dc.subject |
Κινηματικά Δεδομένα |
el |
dc.subject |
Μηχανική Μάθηση |
el |
dc.subject |
LSTM |
en |
dc.subject |
Μηχανισμοί Προσοχής |
el |
dc.subject |
Attention Mechanisms |
en |
dc.subject |
CRF |
en |
dc.title |
Αναγνώριση χειρουργικών κινήσεων στη Ρομποτική Χειρουργική χρησιμοποιώντας μεθόδους Μηχανικής Μάθησης σε Κινηματικά Δεδομένα |
el |
dc.title |
Surgical Gesture Recognition in Robot-Assisted Surgery using Machine Learning Methods on Kinematic Data |
en |
heal.type |
bachelorThesis |
|
heal.classification |
Robotics |
en |
heal.classification |
Machine Learning |
en |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2024-11-06 |
|
heal.abstract |
This diploma thesis focuses on training a machine learning model to recognize gestures during robot-assisted surgical procedures in real-time, using exclusively kinematic data from the patient-side manipulators. The JIGSAWS dataset, specifically the suturing tasks, serves as the evaluation benchmark. Our goal was to achieve state-of-the-art performance, ensuring the model operates in real-time with a maximum delay of 1 second and is trained solely on kinematic data.
We experimented with various neural network architectures, using an LSTM architecture as foundation, in order to effectively capture temporal dependencies within the data sequences. Visualization tools like graphs, confusion matrices, and transition matrices were employed to identify areas for improvement.
Challenges arising from imbalanced data led to difficulties in recognizing underrepresented classes. We expanded the feature set, creating a new feature based on gripper angles. To further enhance performance, we implemented two hybrid approaches: one integrating an attention layer and another combining an LSTM with a Conditional Random Field (CRF) to leverage the sparse transition matrix. Our efforts culminated in a hybrid LSTM - Self Attention model, achieving an accuracy of 81.56%, demonstrating improvements and meeting the constraints set for real-time operation and exclusive use of kinematic data. |
en |
heal.abstract |
Στόχος της παρούσας διπλωματικής εργασίας ήταν η εκπαίδευση ενός μοντέλου μηχανικής μάθησης για την αναγνώριση χειρονομιών κατά τη διάρκεια ρομποτικών χειρουργικών επεμβάσεων σε πραγματικό χρόνο. Η αξιολόγηση έγινε χρησιμοποιώντας το dataset JIGSAWS, το οποίο περιλαμβάνει δεδομένα από τη χρήση του χειρουργικού ρομποτ Da Vinci. Συγκεκριμένα αξιοποιήσαμε τα δεδομένα από τις δοκιμές συρραφής. Στόχος ήταν η επίτευξη υψηλής απόδοσης ως προς την επιτυχή αναγνώριση χειρονομιών, συγκρίσιμη με τις βέλτιστες της διεθνούς βιβλιογραφίας, υπό τις ακόλουθες συνθήκες υπό τις ακόλουθες συνθήκες: α) το μοντέλο να μπορεί να λειτουργεί σε πραγματικό χρόνο μέσω ενός συρόμενου παραθύρου με μέγιστη καθυστέρηση 1 δευτερολέπτου, και β) η εκπαίδευση των μοντέλων να βασιστεί μόνο σε κινηματικά δεδομένα, χωρίς δηλαδή τη χρήση οπτικών (ενδοσκοπικών) δεδομένων. Το βασικό νευρωνικό δίκτυο που χρησιμοποιήθηκε ήταν το LSTM. Αρχικά, πειραματιστήκαμε με τη χρήση ενός και δύο επιπέδων LSTM και στη συνέχεια επιχειρήσαμε να βελτιώσουμε την απόδοση του μοντέλου με διάφορες τεχνικές όπως βελτιστοποίηση υπερπαραμέτρων, πρόωρη διακοπή, εισαγωγή drop out, κανονικοποίηση L2, και stratification.
Σε κάθε βήμα, έγινε προσπάθεια οπτικοποίησης των αποτελεσμάτων με διάφορα γραφήματα οπως confusion matrix, transition matrix και ακρίβεια ανά κλάση για να αξιολογήσουμε τις περιοχές που χρειάζονται βελτίωση. Μετά την παρατήρηση μιας αδυναμίας στην αναγνώριση κατηγοριών με τη μικρότερη εκπροσώπηση στο σύνολο δεδομένων, εφαρμόσαμε stratification (στρωματοποιημένη δειγματοληψία), καθώς και μεγαλύτερη ποινή για την εσφαλμένη ταξινόμηση αυτών των κατηγοριών. Στη συνέχεια, πειραματιστήκαμε με τη χρήση διαφορετικών υποσυνόλων των διαθέσιμων χαρακτηριστικών (features), και παράλληλα έγινε μία προσπάθεια feature engineering, συνδυάζοντας τις γωνίες των δύο gripper σε μία νέα μεταβλητή τεσσάρων πιθανών καταστάσεων που ονομάσαμε Joint Gripper State.
Για την περαιτέρω βελτίωση της απόδοσης του συστήματος αναγνώρισης χειρονομιών σε πραγματικό χρόνο, προτείνονται και αξιολογούνται στην παρούσα διπλωματική εργασία δύο υβριδικές προσεγγίσεις της βασικής αρχιτεκτονικής ενός μοντέλου LSTM. Στην πρώτη προσέγγιση, εισάγεται ένα επιπλέον επίπεδο Attention, το οποίο επιλέχθηκε μετά από συγκριτική αξιολόγηση διαφόρων διατάξεων. Στη δεύτερη προσέγγιση, έγινε προσπάθεια εκμετάλλευσης της αραιούς κατανομής του transition matrix χρησιμοποιώντας ένα CRF το οποίο λαμβάνει ως είσοδο τις προβλέψεις του LSTM σε συνδυασμό με μέρος των κινηματικών δεδομένων. Βέλτιστη απόδοση με ακρίβεια 81.56\% επετεύχθη τελικώς χρησιμοποιώντας ένα υβριδικό μοντέλο LSTM-Self Attention, βελτιώνοντας αντίστοιχες επιδόσεις που αναφέρονται στη διεθνή βιβλιογραφία, δεδομένων των δύο αυστηρών περιορισμών που ετέθησαν. |
el |
heal.advisorName |
Tzafestas, Costas
|
en |
heal.committeeMemberName |
Psillakis, Haris
|
en |
heal.committeeMemberName |
Rontogiannis, Athanasios
|
en |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
80 σ. |
el |
heal.fullTextAvailability |
false |
|