HEAL DSpace

Αναγνώριση χειρουργικών κινήσεων στη Ρομποτική Χειρουργική χρησιμοποιώντας μεθόδους Μηχανικής Μάθησης σε Κινηματικά Δεδομένα

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Δημητριάδης, Αλέξανδρος el
dc.contributor.author Dimitriadis, Alexandros en
dc.date.accessioned 2025-04-04T07:40:46Z
dc.date.available 2025-04-04T07:40:46Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/61625
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29321
dc.rights Default License
dc.subject Surgical Gesture Recognition en
dc.subject Robotic Surgery en
dc.subject JIGSAWS en
dc.subject Kinematic Data en
dc.subject Αναγνώριση Ρομποτικών Χειρουργικών Κινήσεων el
dc.subject Ρομποτική Χειρουργική el
dc.subject Machine Learning en
dc.subject Κινηματικά Δεδομένα el
dc.subject Μηχανική Μάθηση el
dc.subject LSTM en
dc.subject Μηχανισμοί Προσοχής el
dc.subject Attention Mechanisms en
dc.subject CRF en
dc.title Αναγνώριση χειρουργικών κινήσεων στη Ρομποτική Χειρουργική χρησιμοποιώντας μεθόδους Μηχανικής Μάθησης σε Κινηματικά Δεδομένα el
dc.title Surgical Gesture Recognition in Robot-Assisted Surgery using Machine Learning Methods on Kinematic Data en
heal.type bachelorThesis
heal.classification Robotics en
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-11-06
heal.abstract This diploma thesis focuses on training a machine learning model to recognize gestures during robot-assisted surgical procedures in real-time, using exclusively kinematic data from the patient-side manipulators. The JIGSAWS dataset, specifically the suturing tasks, serves as the evaluation benchmark. Our goal was to achieve state-of-the-art performance, ensuring the model operates in real-time with a maximum delay of 1 second and is trained solely on kinematic data. We experimented with various neural network architectures, using an LSTM architecture as foundation, in order to effectively capture temporal dependencies within the data sequences. Visualization tools like graphs, confusion matrices, and transition matrices were employed to identify areas for improvement. Challenges arising from imbalanced data led to difficulties in recognizing underrepresented classes. We expanded the feature set, creating a new feature based on gripper angles. To further enhance performance, we implemented two hybrid approaches: one integrating an attention layer and another combining an LSTM with a Conditional Random Field (CRF) to leverage the sparse transition matrix. Our efforts culminated in a hybrid LSTM - Self Attention model, achieving an accuracy of 81.56%, demonstrating improvements and meeting the constraints set for real-time operation and exclusive use of kinematic data. en
heal.abstract Στόχος της παρούσας διπλωματικής εργασίας ήταν η εκπαίδευση ενός μοντέλου μηχανικής μάθησης για την αναγνώριση χειρονομιών κατά τη διάρκεια ρομποτικών χειρουργικών επεμβάσεων σε πραγματικό χρόνο. Η αξιολόγηση έγινε χρησιμοποιώντας το dataset JIGSAWS, το οποίο περιλαμβάνει δεδομένα από τη χρήση του χειρουργικού ρομποτ Da Vinci. Συγκεκριμένα αξιοποιήσαμε τα δεδομένα από τις δοκιμές συρραφής. Στόχος ήταν η επίτευξη υψηλής απόδοσης ως προς την επιτυχή αναγνώριση χειρονομιών, συγκρίσιμη με τις βέλτιστες της διεθνούς βιβλιογραφίας, υπό τις ακόλουθες συνθήκες υπό τις ακόλουθες συνθήκες: α) το μοντέλο να μπορεί να λειτουργεί σε πραγματικό χρόνο μέσω ενός συρόμενου παραθύρου με μέγιστη καθυστέρηση 1 δευτερολέπτου, και β) η εκπαίδευση των μοντέλων να βασιστεί μόνο σε κινηματικά δεδομένα, χωρίς δηλαδή τη χρήση οπτικών (ενδοσκοπικών) δεδομένων. Το βασικό νευρωνικό δίκτυο που χρησιμοποιήθηκε ήταν το LSTM. Αρχικά, πειραματιστήκαμε με τη χρήση ενός και δύο επιπέδων LSTM και στη συνέχεια επιχειρήσαμε να βελτιώσουμε την απόδοση του μοντέλου με διάφορες τεχνικές όπως βελτιστοποίηση υπερπαραμέτρων, πρόωρη διακοπή, εισαγωγή drop out, κανονικοποίηση L2, και stratification. Σε κάθε βήμα, έγινε προσπάθεια οπτικοποίησης των αποτελεσμάτων με διάφορα γραφήματα οπως confusion matrix, transition matrix και ακρίβεια ανά κλάση για να αξιολογήσουμε τις περιοχές που χρειάζονται βελτίωση. Μετά την παρατήρηση μιας αδυναμίας στην αναγνώριση κατηγοριών με τη μικρότερη εκπροσώπηση στο σύνολο δεδομένων, εφαρμόσαμε stratification (στρωματοποιημένη δειγματοληψία), καθώς και μεγαλύτερη ποινή για την εσφαλμένη ταξινόμηση αυτών των κατηγοριών. Στη συνέχεια, πειραματιστήκαμε με τη χρήση διαφορετικών υποσυνόλων των διαθέσιμων χαρακτηριστικών (features), και παράλληλα έγινε μία προσπάθεια feature engineering, συνδυάζοντας τις γωνίες των δύο gripper σε μία νέα μεταβλητή τεσσάρων πιθανών καταστάσεων που ονομάσαμε Joint Gripper State. Για την περαιτέρω βελτίωση της απόδοσης του συστήματος αναγνώρισης χειρονομιών σε πραγματικό χρόνο, προτείνονται και αξιολογούνται στην παρούσα διπλωματική εργασία δύο υβριδικές προσεγγίσεις της βασικής αρχιτεκτονικής ενός μοντέλου LSTM. Στην πρώτη προσέγγιση, εισάγεται ένα επιπλέον επίπεδο Attention, το οποίο επιλέχθηκε μετά από συγκριτική αξιολόγηση διαφόρων διατάξεων. Στη δεύτερη προσέγγιση, έγινε προσπάθεια εκμετάλλευσης της αραιούς κατανομής του transition matrix χρησιμοποιώντας ένα CRF το οποίο λαμβάνει ως είσοδο τις προβλέψεις του LSTM σε συνδυασμό με μέρος των κινηματικών δεδομένων. Βέλτιστη απόδοση με ακρίβεια 81.56\% επετεύχθη τελικώς χρησιμοποιώντας ένα υβριδικό μοντέλο LSTM-Self Attention, βελτιώνοντας αντίστοιχες επιδόσεις που αναφέρονται στη διεθνή βιβλιογραφία, δεδομένων των δύο αυστηρών περιορισμών που ετέθησαν. el
heal.advisorName Tzafestas, Costas en
heal.committeeMemberName Psillakis, Haris en
heal.committeeMemberName Rontogiannis, Athanasios en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 80 σ. el
heal.fullTextAvailability false


Files in this item

This item appears in the following Collection(s)

Show simple item record