HEAL DSpace

Ταξινόμηση δράσεων σε βίντεο προ-κλινικών πειραμάτων με βαθιές αρχιτεκτονικές αυτοκωδικοποιητών και 3Δ συνελίξεων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βυθούλκας, Αλέξανδρος el
dc.contributor.author Vythoulkas, Alexandros en
dc.date.accessioned 2023-03-06T11:17:07Z
dc.date.available 2023-03-06T11:17:07Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57211
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24909
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Πείραμα Εξαναγκασμένης Κολύμβησης el
dc.subject Forced Swim Test en
dc.subject Αυτοκωδικοποιητές el
dc.subject Autoencoders en
dc.subject Transformers en
dc.subject 3Δ Συνελίξεις el
dc.subject 3D Convolutions en
dc.subject Neuroscience en
dc.subject Νευροψυχολογία el
dc.title Ταξινόμηση δράσεων σε βίντεο προ-κλινικών πειραμάτων με βαθιές αρχιτεκτονικές αυτοκωδικοποιητών και 3Δ συνελίξεων el
dc.title Action Recognition in Pre‐clinical Experiment Videos with Deep Autoencoder Architectures and 3D Convolutions en
heal.type masterThesis
heal.classification Μηχανική Μάθηση el
heal.classification Νευρωνικά Δίκτυα el
heal.classification Deep Learning en
heal.classification Machine Learning en
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-01-15
heal.abstract Στην παρούσα διπλωματική, σκοπός είναι η αυτοματοποίηση των παρατηρήσεων της συμπεριφοράς των επιμύων, κατά την δοκιμασία εξαναγκασμένης κολύμβησης. Το πείραμα της εξαναγκασμένης κολύμβησης αποτελεί ένα σύνηθες μέσο για τη μελέτη της επίδρασης αντικαταθλιπτικών φαρμάκων. Κατά την διάρκεια του πειράματος το υποκείμενο παρουσιάζει διαφορετικές συμπεριφορές οι οποίες αποτελούν αντικείμενο ενδιαφέροντος για τους παρατηρητές, καθώς με τη μέτρηση τους πραγματοποιείται μελέτη των επιδράσεων αντικαταθλιπτικών ουσιών. Για την λύση του προβλήματος αυτού αξιοποιήθηκαν τεχνικές ταξινόμησης δράσεων σε βίντεο. Το σύνολο δεδομένων παραχωρήθηκε από εργαστήριο ιατροφαρμακευτικής της Ιατρικής Σχολής του ΕΚΠΑ και περιλαμβάνει περίπου 8 ώρες ταξινομημένων βίντεο από 2 διαφορετικούς παρατηρητές, καθώς και εκατοντάδες ακόμη ώρες οι οποίες δεν έχουν ταξινομηθεί. Έπειτα από διόρθωση και επεξεργασία του συνόλου δεδομένων, υλοποιήθηκαν μοντέλα εκτίμησης της συμπεριφοράς από την ανάλυση δεδομένων των βίντεο. Η μεθοδολογία που ακολουθήθηκε είναι ο διαχωρισμός των βίντεο σε μικρά τμήματα, τα οποία στη συνέχεια μπορούν να ταξινομηθούν ως ανεξάρτητα βίντεο. Αρχικά πραγματοποιήθηκε εκπαίδευση μοντέλων με τη χρήση νευρωνικών δικτύων με τεχνολογίες αιχμής στην ταξινόμηση βίντεο, το οποίο είναι το Resnet 2+1D και η αρχιτεκτινοική MViT με χρήση προεκπαιδευμένων βαρών. Οι εκπαιδεύσεις αυτές έδωσαν ευστοχία περίπου 81\% και 83\% αντίστοιχα στο υποσύνολο επαλήθευσης, έπειτα από προσαρμογή των κατάλληλων υπερπαραμέτρων. Τα μοντέλα αυτά αξιοποιήθηκαν ως μέσα σύγκρισης των επόμενων πειραμάτων. Για την αξιοποίηση του τεράστιου όγκου μη ταξινομημένων δεδομένων, έγινε προσπάθεια να αξιοποιηθούν με την εκπαίδευση ενός αυτοκωδικοποιητή (autoencoder). Έτσι επιτεύχθηκε η μείωση των διαστάσεων του βίντεο που αποτελεί τα δεδομένα εισόδου των δικτύων. H κωδικοποίηση αυτή χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου με μειωμένες πλέον διαστάσεις, γεγονός που απλοποίησε ιδιαίτερα την ταξινόμηση και μείωσε κατά πολύ τον χρόνο εκπαίδευσης και πρόβλεψης του μοντέλου. Πραγματοποιήθηκαν δοκιμές με διαφορετικούς αυτοκωδικοποιητές, έτσι ώστε να ελεγχθεί η διαδικασία και να υπάρξει κατανόηση των αποτελεσμάτων. Τα αποτελέσματα έδειξαν ότι η μείωση των διαστάσεων του βίντεο, τόσο στα κανάλια όσο και στον χρόνο και τον χώρο, αποτύπωσε ικανοποιητικά το βίντεο χωρίς να υπάρχει έλλειψη σημαντικής πληροφορίας. Οι ταξινομήσεις των διανυσμάτων μειωμένης διάστασης, έφεραν αποτελέσματα έως και 73\% γεγονός που δεν τα καθιστά κοντά στην ευστοχία των δικτύων με προεκπαιδευμένα βάρη, καθώς υστέρησαν κατά 10\% στην ευστοχία. Ως συμπέρασμα προκύπτει ότι οι αρχιτεκτονικές για την αναγνώριση βίντεο έχουν εξελιχθεί δραματικά τα τελευταία χρόνια, και η χρήση προεκπαιδευμένων βαρών προσδίδει σημαντική γνώση στην ταξινόμηση βίντεο διαφορετικού είδους, όπως το πείραμα εξαναγκασμένης κολύμβησης. el
heal.abstract The purpose of this master thesis, is to automate the observations of rat behavior during forced swim test. The experiment of force swim test is a common way of analysing the effect of antidepressant drugs. During forced swim test, the subject has different behaviors which are significant for the observers in order to analyze antidepressant. To address this problem, video classification methods were used. The dataset was given by a medical laboratory and contains 8 hours of labeled videos from 2 different observers. It also contains hundreds of hours which are unlabeled. After adjusting and preprocessing the dataset appropriately, action recognition models were designed. The methodology that was used was to cut small pieces of videos and classify them as independent videos, by video classification deep learning networks. As first, the use of a state-of-the-art deep learning networks for video classification was used. These were Resnet 2+1D and MViTv2 with pretrained weights. This training resulted in 81\% and 83\% accuracy of the validation subset respectively, after adjusting the right hyperparameters. These models were used as baselines to the rest of the experiments. To exploit the massive unlabeled data, an autoencoder was trained. This way the dimensionality of the input of the network, namely a video, was reduced. The encoding was used to classify the videos used. This yielded in reducing the number of the networks parameters by simplifying the architecture. Moreover, the time needed to train and predict the classification of the FST experiment was reduced by far. Different autoencoders for the encoded data were trained to test and understand the process. The experiments emerged that reducing video dimenstionality, in channels, time and space, could represent the videos decently, without a lot of detail deficiency. The classification of those encodings resulted in 73\% accuracy, so they underperformed compared to the state of the art architectures with pretrained weights. Action recognition architectures have been improved in the past years and the use of pretrained weights adds a lot of value to solving different domains like deep forced swim test. Reducing the dimensionality of the video by training and using the autoencoder by 1/3 of the initial dimensions on video channels, time and space, resulted in a decent representation of the video without sacrificing useful information. The classification of the encoded data resulted in 78\% accuracy of the validation subset, which is close to the baseline of the experiment. The procedure was considered as an interesting alternative to Resnet 2+1D because it was by far faster and simplified the problem of automating forced swim test. en
heal.advisorName Καράντζαλος, Κωνσταντίνος el
heal.committeeMemberName Καράντζαλος, Κωνσταντίνος el
heal.committeeMemberName Βακαλοπούλου, Μαρία el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα