dc.contributor.author | Παρέλλη, Μαρία | el |
dc.contributor.author | Parelli, Maria | en |
dc.date.accessioned | 2021-12-20T10:03:36Z | |
dc.date.available | 2021-12-20T10:03:36Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/54209 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.21907 | |
dc.rights | Αναφορά Δημιουργού 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/gr/ | * |
dc.subject | Όραση υπολογιστών | el |
dc.subject | Νευρωνικά δίκτυα | el |
dc.subject | 3D σκελετός | el |
dc.subject | Γράφοι | el |
dc.subject | Νοηματική γλώσσα | el |
dc.subject | Graphs | en |
dc.subject | 3D skeleton | en |
dc.subject | Computer vision | en |
dc.subject | Neural networks | en |
dc.subject | Sign Language | en |
dc.title | Αναγνώριση νοηματικής γλώσσας με τεχνικές βαθιάς μηχανικής μάθησης | el |
dc.title | Deep learning based sign language recognition | en |
heal.type | bachelorThesis | |
heal.classification | Όραση υπολογιστών | el |
heal.classification | Computer vision | en |
heal.language | el | |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2021-06-24 | |
heal.abstract | Sign Language constitutes the primary means of communication for the deaf and hard-of-hearing. Sign Language Recognition is a complex task, which lies at the intersection of computer vision and language modeling. Manual and non-manual cues such as expression, hand shape, and body orientation occur in parallel and play a meaningful role in the articulation of the sign. In this thesis, we study this problem extensively by leveraging recent deep learning approaches. In the first section, we focus on 3D Hand and Body Pose estimation and report quantitative and qualitative results. In the second section, we explore the task of continuous sign language recognition and how expressive 3D skeleton and parameterizations of the human body can be exploited in conjunction with graph convolutions in order to effectively solve our task. We also compare our results with successful architectures, such as transformers and LSTM attention encoder-decoders. We report competitive performance on the Phoenix 2014-T dataset. | en |
heal.abstract | Η νοηματική γλώσσα αποτελεί το πρωταρχικό μέσο επικοινωνίας για τους κωφούς και τα άτομα με προβλήματα ακοής. Η αναγνώριση νοηματικής γλώσσας είναι μια πολύπλοκη εργασία, η οποία βρίσκεται στη διασταύρωση της όρασης υπολογιστών και της επεξεργασίας γλώσσας. Χειροκίνητα και μη χειροκίνητα στοιχεία όπως η έκφραση, το σχήμα του χεριού και ο προσανατολισμός του σώματος εξελίσσονται παράλληλα και παίζουν σημαντικό ρόλο στην άρθρωση του νοήματος. Σε αυτή τη διπλωματική εργασία μελετάμε αυτό το πρόβλημα εκτενώς αξιοποιώντας τις πρόσφατες προσεγγίσεις βαθιάς μηχανικής μάθησης. Στην πρώτη ενότητα εστιάζουμε στην εκτίμηση 3D σκελετού σώματος και χεριού και αναφέρουμε ποσοτικά και ποιοτικά αποτελέσματα. Στη δεύτερη ενότητα διερευνούμε το πρόβλημα της συνεχούς αναγνώρισης νοηματικής γλώσσας και του πώς ο τρισδιάστατος σκελετός και παραμετροποιήσεις του σχήματος του ανθρώπινου σώματος μπορούν να αξιοποιηθούν σε συνδυασμό με συνελίξεις σε γραφήματα προκειμένου να επιλυθεί αποτελεσματικά το έργο μας. Συγκρίνουμε επίσης τα αποτελέσματά μας με επιτυχημένες αρχιτεκτονικές, όπως transformers και αποκωδικοποιητές LSTM με διάφορους μηχανισμούς προσοχής. Αναφέρουμε ανταγωνιστικές επιδόσεις στο σύνολο δεδομένων RWTH Phoenix 2014T. | el |
heal.advisorName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Μαραγκός, Πέτρος | el |
heal.committeeMemberName | Τζαφέστας, Κωνσταντίνος | el |
heal.committeeMemberName | Ποταμιάνος, Γεράσιμος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 126 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: