Ταξινόμηση δράσεων σε βίντεο προ-κλινικών πειραμάτων με βαθιές αρχιτεκτονικές αυτοκωδικοποιητών και 3Δ συνελίξεων

Βυθούλκας, Αλέξανδρος; Vythoulkas, Alexandros

dc.contributor.author	Βυθούλκας, Αλέξανδρος	el
dc.contributor.author	Vythoulkas, Alexandros	en
dc.date.accessioned	2023-03-06T11:17:07Z
dc.date.available	2023-03-06T11:17:07Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/57211
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.24909
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Αναφορά Δημιουργού 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/gr/	*
dc.subject	Πείραμα Εξαναγκασμένης Κολύμβησης	el
dc.subject	Forced Swim Test	en
dc.subject	Αυτοκωδικοποιητές	el
dc.subject	Autoencoders	en
dc.subject	Transformers	en
dc.subject	3Δ Συνελίξεις	el
dc.subject	3D Convolutions	en
dc.subject	Neuroscience	en
dc.subject	Νευροψυχολογία	el
dc.title	Ταξινόμηση δράσεων σε βίντεο προ-κλινικών πειραμάτων με βαθιές αρχιτεκτονικές αυτοκωδικοποιητών και 3Δ συνελίξεων	el
dc.title	Action Recognition in Pre‐clinical Experiment Videos with Deep Autoencoder Architectures and 3D Convolutions	en
heal.type	masterThesis
heal.classification	Μηχανική Μάθηση	el
heal.classification	Νευρωνικά Δίκτυα	el
heal.classification	Deep Learning	en
heal.classification	Machine Learning	en
heal.language	el
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2023-01-15
heal.abstract	Στην παρούσα διπλωματική, σκοπός είναι η αυτοματοποίηση των παρατηρήσεων της συμπεριφοράς των επιμύων, κατά την δοκιμασία εξαναγκασμένης κολύμβησης. Το πείραμα της εξαναγκασμένης κολύμβησης αποτελεί ένα σύνηθες μέσο για τη μελέτη της επίδρασης αντικαταθλιπτικών φαρμάκων. Κατά την διάρκεια του πειράματος το υποκείμενο παρουσιάζει διαφορετικές συμπεριφορές οι οποίες αποτελούν αντικείμενο ενδιαφέροντος για τους παρατηρητές, καθώς με τη μέτρηση τους πραγματοποιείται μελέτη των επιδράσεων αντικαταθλιπτικών ουσιών. Για την λύση του προβλήματος αυτού αξιοποιήθηκαν τεχνικές ταξινόμησης δράσεων σε βίντεο. Το σύνολο δεδομένων παραχωρήθηκε από εργαστήριο ιατροφαρμακευτικής της Ιατρικής Σχολής του ΕΚΠΑ και περιλαμβάνει περίπου 8 ώρες ταξινομημένων βίντεο από 2 διαφορετικούς παρατηρητές, καθώς και εκατοντάδες ακόμη ώρες οι οποίες δεν έχουν ταξινομηθεί. Έπειτα από διόρθωση και επεξεργασία του συνόλου δεδομένων, υλοποιήθηκαν μοντέλα εκτίμησης της συμπεριφοράς από την ανάλυση δεδομένων των βίντεο. Η μεθοδολογία που ακολουθήθηκε είναι ο διαχωρισμός των βίντεο σε μικρά τμήματα, τα οποία στη συνέχεια μπορούν να ταξινομηθούν ως ανεξάρτητα βίντεο. Αρχικά πραγματοποιήθηκε εκπαίδευση μοντέλων με τη χρήση νευρωνικών δικτύων με τεχνολογίες αιχμής στην ταξινόμηση βίντεο, το οποίο είναι το Resnet 2+1D και η αρχιτεκτινοική MViT με χρήση προεκπαιδευμένων βαρών. Οι εκπαιδεύσεις αυτές έδωσαν ευστοχία περίπου 81\% και 83\% αντίστοιχα στο υποσύνολο επαλήθευσης, έπειτα από προσαρμογή των κατάλληλων υπερπαραμέτρων. Τα μοντέλα αυτά αξιοποιήθηκαν ως μέσα σύγκρισης των επόμενων πειραμάτων. Για την αξιοποίηση του τεράστιου όγκου μη ταξινομημένων δεδομένων, έγινε προσπάθεια να αξιοποιηθούν με την εκπαίδευση ενός αυτοκωδικοποιητή (autoencoder). Έτσι επιτεύχθηκε η μείωση των διαστάσεων του βίντεο που αποτελεί τα δεδομένα εισόδου των δικτύων. H κωδικοποίηση αυτή χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου με μειωμένες πλέον διαστάσεις, γεγονός που απλοποίησε ιδιαίτερα την ταξινόμηση και μείωσε κατά πολύ τον χρόνο εκπαίδευσης και πρόβλεψης του μοντέλου. Πραγματοποιήθηκαν δοκιμές με διαφορετικούς αυτοκωδικοποιητές, έτσι ώστε να ελεγχθεί η διαδικασία και να υπάρξει κατανόηση των αποτελεσμάτων. Τα αποτελέσματα έδειξαν ότι η μείωση των διαστάσεων του βίντεο, τόσο στα κανάλια όσο και στον χρόνο και τον χώρο, αποτύπωσε ικανοποιητικά το βίντεο χωρίς να υπάρχει έλλειψη σημαντικής πληροφορίας. Οι ταξινομήσεις των διανυσμάτων μειωμένης διάστασης, έφεραν αποτελέσματα έως και 73\% γεγονός που δεν τα καθιστά κοντά στην ευστοχία των δικτύων με προεκπαιδευμένα βάρη, καθώς υστέρησαν κατά 10\% στην ευστοχία. Ως συμπέρασμα προκύπτει ότι οι αρχιτεκτονικές για την αναγνώριση βίντεο έχουν εξελιχθεί δραματικά τα τελευταία χρόνια, και η χρήση προεκπαιδευμένων βαρών προσδίδει σημαντική γνώση στην ταξινόμηση βίντεο διαφορετικού είδους, όπως το πείραμα εξαναγκασμένης κολύμβησης.	el
heal.abstract	The purpose of this master thesis, is to automate the observations of rat behavior during forced swim test. The experiment of force swim test is a common way of analysing the effect of antidepressant drugs. During forced swim test, the subject has different behaviors which are significant for the observers in order to analyze antidepressant. To address this problem, video classification methods were used. The dataset was given by a medical laboratory and contains 8 hours of labeled videos from 2 different observers. It also contains hundreds of hours which are unlabeled. After adjusting and preprocessing the dataset appropriately, action recognition models were designed. The methodology that was used was to cut small pieces of videos and classify them as independent videos, by video classification deep learning networks. As first, the use of a state-of-the-art deep learning networks for video classification was used. These were Resnet 2+1D and MViTv2 with pretrained weights. This training resulted in 81\% and 83\% accuracy of the validation subset respectively, after adjusting the right hyperparameters. These models were used as baselines to the rest of the experiments. To exploit the massive unlabeled data, an autoencoder was trained. This way the dimensionality of the input of the network, namely a video, was reduced. The encoding was used to classify the videos used. This yielded in reducing the number of the networks parameters by simplifying the architecture. Moreover, the time needed to train and predict the classification of the FST experiment was reduced by far. Different autoencoders for the encoded data were trained to test and understand the process. The experiments emerged that reducing video dimenstionality, in channels, time and space, could represent the videos decently, without a lot of detail deficiency. The classification of those encodings resulted in 73\% accuracy, so they underperformed compared to the state of the art architectures with pretrained weights. Action recognition architectures have been improved in the past years and the use of pretrained weights adds a lot of value to solving different domains like deep forced swim test. Reducing the dimensionality of the video by training and using the autoencoder by 1/3 of the initial dimensions on video channels, time and space, resulted in a decent representation of the video without sacrificing useful information. The classification of the encoded data resulted in 78\% accuracy of the validation subset, which is close to the baseline of the experiment. The procedure was considered as an interesting alternative to Resnet 2+1D because it was by far faster and simplified the problem of automating forced swim test.	en
heal.advisorName	Καράντζαλος, Κωνσταντίνος	el
heal.committeeMemberName	Καράντζαλος, Κωνσταντίνος	el
heal.committeeMemberName	Βακαλοπούλου, Μαρία	el
heal.committeeMemberName	Βουλόδημος, Αθανάσιος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.fullTextAvailability	false