HEAL DSpace

Αναγνώριση νοηματικής γλώσσας με τεχνικές βαθιάς μηχανικής μάθησης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Παρέλλη, Μαρία el
dc.contributor.author Parelli, Maria en
dc.date.accessioned 2021-12-20T10:03:36Z
dc.date.available 2021-12-20T10:03:36Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/54209
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.21907
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Όραση υπολογιστών el
dc.subject Νευρωνικά δίκτυα el
dc.subject 3D σκελετός el
dc.subject Γράφοι el
dc.subject Νοηματική γλώσσα el
dc.subject Graphs en
dc.subject 3D skeleton en
dc.subject Computer vision en
dc.subject Neural networks en
dc.subject Sign Language en
dc.title Αναγνώριση νοηματικής γλώσσας με τεχνικές βαθιάς μηχανικής μάθησης el
dc.title Deep learning based sign language recognition en
heal.type bachelorThesis
heal.classification Όραση υπολογιστών el
heal.classification Computer vision en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2021-06-24
heal.abstract Sign Language constitutes the primary means of communication for the deaf and hard-of-hearing. Sign Language Recognition is a complex task, which lies at the intersection of computer vision and language modeling. Manual and non-manual cues such as expression, hand shape, and body orientation occur in parallel and play a meaningful role in the articulation of the sign. In this thesis, we study this problem extensively by leveraging recent deep learning approaches. In the first section, we focus on 3D Hand and Body Pose estimation and report quantitative and qualitative results. In the second section, we explore the task of continuous sign language recognition and how expressive 3D skeleton and parameterizations of the human body can be exploited in conjunction with graph convolutions in order to effectively solve our task. We also compare our results with successful architectures, such as transformers and LSTM attention encoder-decoders. We report competitive performance on the Phoenix 2014-T dataset. en
heal.abstract Η νοηματική γλώσσα αποτελεί το πρωταρχικό μέσο επικοινωνίας για τους κωφούς και τα άτομα με προβλήματα ακοής. Η αναγνώριση νοηματικής γλώσσας είναι μια πολύπλοκη εργασία, η οποία βρίσκεται στη διασταύρωση της όρασης υπολογιστών και της επεξεργασίας γλώσσας. Χειροκίνητα και μη χειροκίνητα στοιχεία όπως η έκφραση, το σχήμα του χεριού και ο προσανατολισμός του σώματος εξελίσσονται παράλληλα και παίζουν σημαντικό ρόλο στην άρθρωση του νοήματος. Σε αυτή τη διπλωματική εργασία μελετάμε αυτό το πρόβλημα εκτενώς αξιοποιώντας τις πρόσφατες προσεγγίσεις βαθιάς μηχανικής μάθησης. Στην πρώτη ενότητα εστιάζουμε στην εκτίμηση 3D σκελετού σώματος και χεριού και αναφέρουμε ποσοτικά και ποιοτικά αποτελέσματα. Στη δεύτερη ενότητα διερευνούμε το πρόβλημα της συνεχούς αναγνώρισης νοηματικής γλώσσας και του πώς ο τρισδιάστατος σκελετός και παραμετροποιήσεις του σχήματος του ανθρώπινου σώματος μπορούν να αξιοποιηθούν σε συνδυασμό με συνελίξεις σε γραφήματα προκειμένου να επιλυθεί αποτελεσματικά το έργο μας. Συγκρίνουμε επίσης τα αποτελέσματά μας με επιτυχημένες αρχιτεκτονικές, όπως transformers και αποκωδικοποιητές LSTM με διάφορους μηχανισμούς προσοχής. Αναφέρουμε ανταγωνιστικές επιδόσεις στο σύνολο δεδομένων RWTH Phoenix 2014T. el
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Τζαφέστας, Κωνσταντίνος el
heal.committeeMemberName Ποταμιάνος, Γεράσιμος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 126 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα