HEAL DSpace

Αναγνώριση ανθρωπίνων δράσεων και συμπεριφορών με αξιοποίηση δεδομένων φορητών αισθητήρων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βιώνη, Αλεξάνδρα el
dc.contributor.author Vioni, Alexandra en
dc.date.accessioned 2024-02-23T08:58:21Z
dc.date.available 2024-02-23T08:58:21Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58945
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26641
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Αναγνώριση Ανθρωπίνων Δράσεων el
dc.subject Μη Ελεγχόμενες Συνθήκες el
dc.subject Αισθητήρες Φορητών Συσκευών el
dc.subject Μηχανική Μάθηση el
dc.subject Βαθιά Μάθηση el
dc.subject Human Activity Recognition en
dc.subject In-the-wild en
dc.subject Wearable Devices en
dc.subject Machine Learning en
dc.subject Deep Learning en
dc.title Αναγνώριση ανθρωπίνων δράσεων και συμπεριφορών με αξιοποίηση δεδομένων φορητών αισθητήρων el
heal.type bachelorThesis
heal.secondaryTitle Human Activity Recognition using smartphone and smartwatch sensor data en
heal.classification Μηχανική Μάθηση el
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-10-20
heal.abstract Η ανάπτυξη συστημάτων ικανών να ανιχνεύουν και να αναγνωρίζουν αυτόματα τις δραστηριότητες που εκτελεί ένα άτομο, καθώς και το πλαίσιο στο οποίο εκτελείται κάθε δραστηριότητα, είναι η επιτομή της Αναγνώρισης Ανθρωπίνων Δράσεων (HAR). Τα συστήματα αυτά μπορούν να χρησιμοποιούν δεδομένα που συλλέγονται από ένα φάσμα αισθητήρων, στο οποίο συμπεριλαμβάνονται οπτικοί αισθητήρες, π.χ. βιντεοκάμερες, και μη οπτικοί αισθητήρες, όπως οι φορητοί αισθητήρες και οι αισθητήρες περιβάλλοντος. Η αναγνώριση ανθρωπίνων δράσεων βρίσκει αναρίθμητες εφαρμογές στην καθημερινή ζωή, κυρίως στον τομέα της υγείας, στη φροντίδα ηλικιωμένων, στην υποβοηθούμενη διαβίωση, στην αλληλεπίδραση ανθρώπου-υπολογιστή, στην υποβοηθούμενη μάθηση και στον αθλητισμό. Σε αυτή τη διπλωματική εργασία, ασχολούμαστε με την αναγνώριση ανθρωπίνων δράσεων χρησιμοποιώντας δεδομένα φορητών αισθητήρων που συλλέγονται σε μη ελεγχόμενες συνθήκες (in-the-wild), από έξυπνα τηλέφωνα και έξυπνα ρολόγια. Σε αντίθεση με την προδιαγεγραμμένη και πολύ ελεγχόμενη διαδικασία συλλογής δεδομένων ανθρωπίνων δράσεων στο εργαστήριο, η συλλογή δεδομένων in-the-wild πραγματοποιείται στην καθημερινή ζωή, προκειμένου να μπορούν μετά να εκπαιδευθούν συστήματα ικανά να αναγνωρίζουν καλύτερα τις δραστηριότητες που εκτελούνται σε πραγματικές συνθήκες, και απαιτεί να πληρούνται οι ακόλουθες προϋποθέσεις: οι συμμετέχοντες να χρησιμοποιούν τις συσκευές τους τις οποίες θα χρησιμοποιούσαν ούτως ή άλλως, χωρίς περιορισμούς στην τοποθέτηση των συσκευών, και να εκτελούν δραστηριότητες που θα εκτελούσαν πραγματικά, στο πραγματικό τους περιβάλλον. Με αυτόν τον τρόπο, μπορεί τα δεδομένα που συλλέγονται να αντικατοπτρίζουν καλύτερα τις δραστηριότητες και τα πλαίσια των δραστηριοτήτων της καθημερινής ζωής, αλλά προκύπτουν επίσης πολλές προκλήσεις όσον αφορά στη χρήση των δεδομένων αυτών για συστήματα αναγνώρισης ανθρώπινης δραστηριότητας. Η διαδικασία της επισημείωσης είναι δυσκολότερη όταν γίνεται από τον κάθε συμμετέχοντα στην καθημερινή ζωή, με αποτέλεσμα οι επισημειώσεις ετικετών (labels) να είναι λιγότερες και χειρότερες ποιοτικά, καθώς η κακή χρήση ετικετών ή η αμέλεια μπορεί να οδηγήσει σε μεγάλο αριθμό μη επισημειωμένων ή λανθασμένα επισημειωμένων δειγμάτων. Η ελεύθερη επισημείωση ετικετών οδηγεί σε σύνολα δεδομένων πολλαπλών ετικετών (multi-label) που είναι εξαιρετικά μη ισορροπημένα. Η συλλογή δεδομένων με τη χρήση διαφορετικών τύπων συσκευών σε συνδυασμό με την έλλειψη περιορισμών όσον αφορά στην τοποθέτηση των συσκευών οδηγεί σε δεδομένα με θόρυβο, και είναι πολύ συχνές οι απώλειες ορισμένων αισθητήρων. Επίσης, υπάρχει μεγάλη διαπροσωπική και ενδοπροσωπική μεταβλητότητα στα δεδομένα που συλλέγονται, καθώς μια δραστηριότητα μπορεί να εκτελείται με διαφορετικό τρόπο από διαφορετικούς χρήστες, αλλά και από τον ίδιο χρήστη σε διαφορετικές χρονικές στιγμές. Χρησιμοποιούμε το σύνολο δεδομένων ExtraSensory που περιέχει επισημειωμένα δεδομένα από 60 χρήστες συνολικής διάρκειας άνω των 300000 λεπτών, τα οποία έχουν συλλεχθεί από αισθητήρες έξυπνου κινητού και έξυπνου ρολογιού. Κάθε δείγμα του συνόλου δεδομένων αντιστοιχεί σε ένα λεπτό για το οποίο παρέχονται μετρήσεις πολλαπλών αισθητήρων και πολλαπλές ετικέτες δραστηριότητας και πλαισίου. Το υποσύνολο του συνόλου δεδομένων που χρησιμοποιούμε περιλαμβάνει μετρήσεις αισθητήρων από το επιταχυνσιόμετρο, το γυροσκόπιο, το GPS, τον ήχο και την κατάσταση του έξυπνου τηλεφώνου και από το επιταχυνσιόμετρο του έξυπνου ρολογιού, και περιλαμβάνει συνολικά 51 ετικέτες δραστηριότητας και πλαισίου. Το σύνολο δεδομένων περιέχει τόσο τις ανεπεξέργαστες μετρήσεις από τους αισθητήρες όσο και στατιστικά χαρακτηριστικά που έχουν εξαχθεί. Όσον αφορά στους αισθητήρες GPS και ήχου, χρησιμοποιούμε μόνο επεξεργασμένα δεδομένα, για λόγους προστασίας της ιδιωτικότητας. Αφού εξερευνήσουμε το σύνολο δεδομένων για να κατανοήσουμε πόσο μη ισορροπημένο είναι και να διερευνήσουμε πώς μεταβάλλονται τα ήδη εξαχθέντα χαρακτηριστικά όταν εκτελούνται διαφορετικές δραστηριότητες ή όταν διαφορετικοί χρήστες εκτελούν την ίδια δραστηριότητα, αναπαράγουμε ορισμένα βασικά μοντέλα αναγνώρισης δραστηριότητας από προηγούμενες εργασίες, τα οποία περιλαμβάνουν τη λογιστική παλινδρόμηση και ένα απλό multilayer perceptron, χρησιμοποιώντας τα ήδη εξαχθέντα χαρακτηριστικά. Επεκτείνουμε το βασικό μοντέλο χρησιμοποιώντας ένα αμφίδρομο LSTM (BiLSTM) για να μοντελοποιήσουμε μια ακολουθία δειγμάτων, χρησιμοποιώντας και πάλι τα εξαχθέντα χαρακτηριστικά. Ενισχύουμε επίσης το μοντέλο BiLSTM με ένα μηχανισμό αυτο-προσοχής (Self-Attention) που ενισχύει την απόδοση του μοντέλου, ή ένα μηχανισμό διασταυρούμενης προσοχής (Cross-Attention) που χρησιμοποιείται για την ερμηνευσιμότητα που προσδίδει. Εκτελούμε επίσης πειράματα χρησιμοποιώντας τα ανεπεξέργαστα δεδομένα από τους αισθητήρες, χρησιμοποιώντας στρώματα συνελικτικών νευρωνικών δικτύων (CNN) και στρώματα Transformer Encoder για την εξαγωγή χαρακτηριστικών, για τη μοντελοποίηση ενός μεμονωμένου δείγματος, και τα συνδυάζουμε περαιτέρω με ένα BiLSTM για τη μοντελοποίηση μιας ακολουθίας δειγμάτων. Σε όλα τα πειράματά μας χρησιμοποιούμε μία συνάρτηση κόστους βασισμένη στο binary cross-entropy loss, στο οποίο προσθέτουμε στάθμιση δειγμάτων ανά ετικέτα και ανά batch, για να χειριστούμε την ανισορροπία στον αριθμό των δειγμάτων που είναι επισημειωμένα με κάθε ετικέτα και τις ετικέτες που λείπουν. Στο τέλος παρέχουμε χρήσιμες κατευθύνσεις για την περαιτέρω βελτίωση των επιδόσεων των μοντέλων αναγνώρισης ανθρώπινης δραστηριότητας σε μελλοντικές εργασίες, με βάση την εμπειρία μας από το συγκεκριμένο πρόβλημα. el
heal.abstract Building systems capable of automatically detecting and identifying activities performed by a person, and also the context in which each activity is performed, is the essence of Human Activity Recognition (HAR). These systems can use data collected from a wide range of sensors, including visual sensors e.g., video cameras, and non-visual sensors, including wearable sensors and ambient sensors. Human Activity Recognition has widespread applications in everyday life, predominantly in healthcare, elderly care, assisted living, human-computer interaction, assisted learning, and sports. In this thesis, we tackle the HAR problem using wearable sensor data collected in-the-wild, from smartphones and smartwatches. Contrary to the scripted and heavily constrained procedure of collecting HAR data in the lab, in-the-wild data collection takes place in everyday life, in order to build systems capable of better recognizing activities performed in real-life conditions, and requires that four terms are met: the participants use their devices which they would naturally use, with unconstrained device placement, and they perform activities that they would naturally perform, in their natural environment. This way, the collected data might better reflect real-life activities and contexts, but also a lot of challenges arise regarding using them for HAR systems. The task of labeling is harder when self-reporting during everyday life, and label annotation is worse both quantity-wise and quality-wise, since misusing or forgetting labels can lead to large portions of not annotated or wrongly annotated data. Open-ended label annotation leads to multi-label datasets that are extremely unbalanced. Collecting data using different types of devices combined with unconstrained device placement lead in data prone to noise, and missing sensors modalities are very common. Also, there is large inter-personal and intra-personal variability in the collected data since an activity might be performed differently among users, but also by a specific user at different times. We use the ExtraSensory dataset which contains labeled data from 60 users totaling over 300k minutes, collected from smartphone and smartwatch sensors. Each data instance corresponds to one minute for which multi-sensor measurements and multiple relevant labels are provided. The dataset's subset that we use includes sensor measurements from the smartphone's accelerometer, gyroscope, GPS, audio and phone state and from the smartwatch's accelerometer, and includes 51 activity and context labels in total. The dataset contains both raw sensor measurements and pre-extracted statistical features. Regarding the GPS and audio sensors, we use only processed data, for privacy reasons. After exploring the dataset to understand how unbalanced it is and to investigate how the features change when performing different activities or when different users perform the same activity, we reproduce some baseline prediction models from previous work, which include logistic regression and a simple multilayer perceptron, using the pre-extracted features. We build upon this work, and use a bidirectional LSTM (BiLSTM) to model a sequence of examples, again using the pre-extracted features. We also augment the BiLSTM model with a Self-Attention module which increases model performance, or a Cross-Attention module which is used for interpretability. We also run experiments using the raw sensor data, using convolutional neural network (CNN) layers and Transformer Encoder layers for feature extraction, to model a single example, and we further combine them with a BiLSTM to model a sequence of examples. In all our experiments we use a custom loss based on binary cross-entropy with instance weighting per-label and per-batch, to account for label imbalance and missing labels. At the end, we provide valuable insights to further improve HAR performance in future work, based on our experience on the task. en
heal.advisorName Μαραγκός, Πέτρος el
heal.committeeMemberName Μαραγκός, Πέτρος el
heal.committeeMemberName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων el
heal.academicPublisherID ntua
heal.numberOfPages 250 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα