HEAL DSpace

Υλοποίηση μεθοδολογίας για την εκπαίδευση αλγορίθμου μηχανικής μάθησης για τον προσδιορισμό 6D πόζας αντικειμένου χωρίς υφή

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Σαπουτζόγλου, Παναγιώτης el
dc.contributor.author Sapoutzoglou, Panagiotis en
dc.date.accessioned 2023-04-28T10:30:40Z
dc.date.available 2023-04-28T10:30:40Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/57585
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.25282
dc.rights Αναφορά Δημιουργού 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/gr/ *
dc.subject Μηχανική μάθηση el
dc.subject Όραση υπολογιστών el
dc.subject Νευρωνικά δίκτυα el
dc.subject Φωτογραμμετρία el
dc.subject Αρπάγη el
dc.subject OpenGL en
dc.subject CNN el
dc.subject Neural Networks el
dc.subject Machine learning el
dc.subject Photogrammetry el
dc.subject Computer vision el
dc.subject container el
dc.title Υλοποίηση μεθοδολογίας για την εκπαίδευση αλγορίθμου μηχανικής μάθησης για τον προσδιορισμό 6D πόζας αντικειμένου χωρίς υφή el
dc.title Implementation of a Methodology for Training a Machine Learning Algorithm for 6D Pose Estimation of a Textureless Object en
heal.type bachelorThesis
heal.classification Φωτογραμμετρία el
heal.classification Όραση Υπολογιστών el
heal.classification Μηχανική Μάθηση el
heal.classification Photogrammetry en
heal.classification Computer vision el
heal.classification Machine learning el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-03-10
heal.abstract Η αναγνώριση αντικειμένων και ο προσδιορισμός της θέσης και της στροφής τους ως προς το σύστημα της κάμερας είναι ένα σημαντικό και βασικό πρόβλημα του τομέα της υπολογιστικής όρασης και της φωτογραμμετρίας, το οποίο βρίσκει εφαρμογή σε διάφορους τομείς όπως είναι η ρομποτική, η επαυξημένη πραγματικότητα και τα έξυπνα περιβάλλοντα λόγω των αυξανόμενων απαιτήσεων αυτοματοποίησης διαδικασιών αναγνώρισης, εκπαίδευσης, ασφάλειας,κ.ά.. Οι δύο αυτοί τομείς βασίζονται στις ίδιες γεωμετρικές αρχές της προβολικής γεωμετρίας. Συγκεκριμένα, από τη σχετική βιβλιογραφία για την εκτίμηση της 6D πόζας αντικειμένων φαίνεται ότι υπάρχει η τάση να αναπτύσσονται μέθοδοι όπου για δεδομένα εισόδου χρησιμοποιούν τόσο RGB όσο και RGB-D εικόνες. Ωστόσο, η απόκτηση της πληροφορία του βάθους από ενεργητικούς αισθητήρες δεν είναι εφικτή στον ίδιο βαθμό για όλα τα αντικείμενα (πχ. μεταλλικά η ημιδιαφανή) και η τοποθέτηση πολλαπλών αισθητήρων (πχ. στερεοκάλυψη) αυξάνει σημαντικά το υπολογιστικό κόστος. Εκτός από αυτό, σε τέτοια περιβάλλοντα είναι συχνές οι περιπτώσεις όπου το αντικείμενο έχει αποκρύψεις (occlusions) - έως και μεγάλου μέρους του - στην εικόνα λόγω παρεμβολής άλλων αντικειμένων μεταξύ αυτού και της κάμερας, ή το παρασκήνιο αποτελείται από πάρα πολλές οντότητες με αποτέλεσμα το αντικείμενο να αναγνωρίζεται πιο δύσκολα. Για την αντιμετώπιση των παραπάνω, έχουν προταθεί τα τελευταία χρόνια πολλές μέθοδοι με εκείνες οι οποίες βασίζονται σε δίκτυα βαθιάς μάθησης να έχουν εξέχουσα θέση. Αν και πολύ αποτελεσματικά τόσο σε ακρίβεια όσο και σε χρόνο, τα δίκτυα βαθιάς μάθησης είναι άμεσα εξαρτημένα από τον όγκο των δεδομένων εκπαίδευσης, την ποιότητα τους αλλά και το είδος τους. Λόγω της εντατικοποίησης της χρήσης έξυπνων συστημάτων που βασίζονται στην υπολογιστική όραση στο χώρο των μεταφορών και της εφοδιαστικής σε λιμάνια (port logistics) η παρούσα διπλωματική ασχολείται με τον προσδιορισμό της 6D πόζας αρπάγης για container από μία μόνο RGB εικόνα. Αρχικά, παραθέτονται κάποιες βασικές έννοιες και το απαραίτητο θεωρητικό υπόβαθρο για την διεκπεραίωση της εργασίας. Συγκεκριμένα, γίνεται αναφορά στη μοντελοποίηση του συστήματος της κάμερας που χρησιμοποιεί η υπολογιστική όραση, στις ομογενείς συντεταγμένες και το σημαντικό ρόλο τους στην πραγματοποίηση μετασχηματισμών με τη χρήση διανυσμάτων και πινάκων, στην αναπαράσταση της στροφής στο χώρο μέσω τετραδρονιών αλλά και σε βασικές έννοιες της υλοποίησης 3D γραφικών μέσω της OpenGl. Ακόμα, αναφέρονται σημαντικές έννοιες της βαθιά μάθησης όπως η διαδικασία εκπαίδευσης των νευρωνικών δικτύων, η αρχιτεκτονική τους και οι υπερ-παράμετροι που τη συνοδεύουν. Τα παραπάνω στοχεύουν στην βαθύτερη κατανόηση της λειτουργίας των συνελικτικών νευρωνικών δικτύων (CNN) σαν μέσο για την επίτευξη καλύτερων αποτελεσμάτων, τη αντίληψη των περιορισμών τους αλλά και τρόπους για την βελτιστοποίηση τους. Έπειτα, γίνεται αναλυτική αναφορά στη σχετική βιβλιογραφία και ο διαχωρισμός των διάφορων μεθόδων προσδιορισμού της 6D πόζας σε διακριτές κατηγορίες επισημαίνοντας τη συνεισφορά, τα πλεονεκτήματα και τις αδυναμίες τους. Οι κύριες κατηγορίες είναι μέθοδοι που βασίζονται σε μια διαδικασία εκμάθησης και οι κλασσικές μέθοδοι. Οι μεν πρώτες χρησιμοποιούν τα CNN για την εξαγωγή χαρακτηριστικών στις εικόνες ενώ οι δεύτερες χρησιμοποιούν κλασσικούς αλγορίθμους εύρεσης χαρακτηριστικών σημείων. Πιο συγκεκριμένα, οι μέθοδοι εκμάθησης χωρίζονται σε επιμέρους κατηγορίες ανάλογα με το πως αντιμετωπίζουν το πρόβλημα του προσδιορισμού της 6D πόζας. Κάποιες προβλέπουν αντιστοιχίες 2D-3D και λύνουν το πρόβλημα PnP, άλλες δημιουργούν ένα περιορισμένο ομοιόμορφο σετ από πόζες του αντικειμένου και αναζητούν με βάση την εικόνα τη πλησιέστερη από αυτές και άλλες που χρησιμοποιούν απευθείας παλινδρόμηση της 6D πόζας του αντικειμένου. Για την εκπαίδευση του αλγορίθμου προσδιορισμού της 6D πόζας της αρπάγης χρειάζονται εικόνες στις οποίες αυτή απεικονίζεται συνοδευόμενες από τις πόζες αναφοράς. Η απόκτηση των τελευταίων είναι δύσκολο να γίνει λόγω των μεγάλων διαστάσεων του αντικειμένου και λόγω του γεγονότος ότι δεν μπορεί εύκολα να συστηματοποιηθεί η λήψη τους. Ακόμα, η χειροκίνητη απόκτηση και επεξεργασία τους είναι χρονοβόρα. Για τον λόγο αυτό μέρος της εργασίας αποτελεί η δημιουργία ενός συνθετικού σετ εκπαίδευσης. Συγκεκριμένα, με τη χρήση ενός φωτορεαλιστικού μοντέλου της αρπάγης παρήχθησαν εικόνες της υπό διάφορες γωνίες λήψεις και αποστάσεις. Για την δημιουργία του φωτορεαλιστικού μοντέλου της αρπάγης έγινε η απόδοση της υφής του στο διαθέσιμο γεωμετρικό μοντέλο από εικόνες της αρπάγης που ελήφθησαν στο πεδίο με μία ερασιτεχνική κάμερα. Έγινε πειραματισμός πάνω σε δύο προγράμματα ανοιχτού λογισμικού ο οποίος κατέληξε τελικά στην χειροκίνητη προβολή των απαραίτητων εικόνων στο μοντέλο για κάθε τρίγωνο της επιφάνειας του. Με βάση το σετ δεδομένων που προέκυψε εκπαιδεύτηκε ένας αλγόριθμος προσδιορισμού 6D πόζας (EPOS). Για την εκπαίδευση ακολούθησε πειραματισμός με το μέγεθος των εικόνων αλλά και με τις υπερ-παραμέτρους του μοντέλου. Τα αποτελέσματα της εκπαίδευσης αξιολογήθηκαν ποιοτικά και ποσοτικά στο σετ ελέγχου (validation set) με τον υπολογισμό διάφορων μετρικών για τον υπολογισμό των σφαλμάτων που χρησιμοποιούνται στη σχετική βιβλιογραφία. Στο τελικό στάδιο της εργασίας, η αποτελεσματικότητα της προτεινόμενης μεθόδου αξιολογείται σε πραγματικές εικόνες οι οποίες ανακτήθηκαν από σειρές video που καταγράφουν τη διαδικασία φόρτωσης/εκφόρτωσης container. Για να λυθεί το πρόβλημα της μεγάλης διαφοράς που παρουσιάζουν τα συνθετικά δεδομένα από τις πραγματικές εικόνες (πχ. δυναμικό φόντο - background) υιοθετήθηκε μία προ-επεξεργασία των εικόνων και συγκεκριμένα η εξαγωγή της 2D μάσκας της αρπάγης και η εφαρμογή διαφόρων μετασχηματισμών συμβατότητας. Για την αξιολόγηση της απόδοσης του μοντέλου ποσοτικά, και σε πραγματικές εικόνες, υπολογίστηκαν τα ίδια σφάλματα όπως στο σετ ελέγχου ενώ για την ποιοτική αξιολόγηση χρησιμοποιήθηκε ο αλγόριθμος για την απόκρυψη των μη ορατών ακμών και η υπέρθεση της εκτιμώμενης πόζας πάνω στην αρχική εικόνα. Τέλος, η εργασία παραθέτει μια σύνοψη της διαδικασίας, τα συμπεράσματα της επίτευξης ή μη των αρχικών απαιτήσεων αλλά και τις δυνατές διορθώσεις και ιδέες για μελλοντική έρευνα και ανάπτυξη. Μέρος της ερευνητικής εργασίας παρουσιάστηκε στο συνέδριο 8th International Conference on Computer Vision Theory and Applications, Lisbon Portugal,19-22 February 2023 με τίτλο “Crane Spreader Pose Estimation from a Single View”. el
heal.abstract Object detection and 6D object pose estimation are important and fundamental problems in computer vision and photogrammetry, relevant in robotics, augmented reality and smart environments applications due to the rapidly growing automation of recognition, training and security tasks. Photogrammetry and computer vision have a lot in common both being structured by the same fundamental principles of projective geometry. Specifically for object pose estimation, the literature tends to use as input modality RGB and RGB-D images. However, the acquisition of depth information based on active sensors is not always feasible in outdoor environments or in the case of objects with special characteristics (with metallic or semi-transparent surfaces). Furthermore, the installation of multiple sensors (e.g. stereo) to support additional viewpoints to extract 3D information via passive means translates to higher computational cost. Moreover, in such environments, occlusions and background clutter are frequently encountered. The object may be partially or fully occluded, whereas in the case of background clutter other objects and similar-looking distractors may aggravate the problem. To confront with the above, many approaches have been proposed over the years for 6D pose estimation with deep learning techniques showing a prominent role. Even though they are very effective and robust, they are extremely data-driven depending not only on the size of the training data but also on their quality and type. Digitization is currently a trend that is gaining momentum in container logistics, aiming to make related processes more automated, efficient and traceable. Under these premises, this thesis deals with the 6D pose estimation of a crane spreader from a single view. The thesis starts by providing some important theoretical background and key concepts. This part describes the mathematical modeling of the camera adopted in computer vision, the importance of homogenous coordinates in vector and matrix computations, quaternion representation, as well as key concepts regarding the implementation of 3D computer graphics with OpenGL. Furthermore, key concepts of deep learning are highlighted describing the training process of NNs, their architecture and hyperparameters. The aforementioned part focuses on a better understanding of how NNs and CNNs operate internally as a means to achieve optimal results, being able to interpret possible shortcomings and ways to overcome them. Next, relative literature is extensively analyzed by categorizing the 6D pose estimation methods and describing the main contributions, advantages, and disadvantages of each category. The recent methods proposed for the pose estimation problem are divided into two main categories: learning-based approaches and classical non-learning-based methods. Learning-based methods exploit CNNs for feature extraction whilst non-learning methods use conventional 2D feature extractors. Moreover, learning-based approaches model the 6D pose estimation task in different ways with some predicting 2D-3D correspondences and solving the PnP, others by using a finite set of representations of the model and searching for an identical pose in the image (template-based) and others by directly regressing the 6D pose of the object. In order to train the 6D pose estimation algorithm a training dataset must be obtained. The automatic acquisition of training images and their corresponding ground truth poses is challenging given the object’s dimensions and the difficult task of systematically obtaining them. Manual acquisition and annotation of the dataset are both labor-intensive and time-consuming. The above are confronted by creating a photorealistic texture model of the spreader and rendering a synthetic training dataset by systematically sampling RGB images from various viewpoints and distances. In this context, there was experimentation with two different open-source software to obtain the texture of the spreader using images taken from the field with a commodity camera. This experimentation resulted in the manual mapping of the texture by introducing each input image separately and projecting it to the model’s faces. Given this photorealistic model of the spreader, a synthetic dataset is constructed using a computer graphics shader pipeline. By the means of this dataset, a state-of-the-art 6D pose estimation algorithm is trained (EPOS). The model is fine-tuned by experimenting with hyperparameters and image size. Training results are quantitatively and qualitatively assessed using various error metrics from related literature. Finally, the effectiveness of this approach is evaluated using real images acquired from video sequences of the spreader during container loading/unloading operations. In order to overcome the domain gap between real and synthetic data, a methodology consisting of a 2D segmentation task of the spreader, and various transformations is constructed. Besides the quantitative analysis, the results are also assessed visually by rendering the model’s predicted pose with the Hidden Line Removal (HLR) algorithm and super-imposing it on the input images. The thesis concludes by providing a summary of the approach implementation and discusses whether the requirements for the specific application are satisfied and to what extent. Finally, possible improvements to the procedure are discussed as well as interesting ideas for future work. Part of this work was presented at the 18th International Conference on Computer Vision Theory and Applications, Lisbon Portugal,19-22 February 2023 as a short paper entitled “Crane Spreader Pose Estimation from a Single View”. en
heal.advisorName Πατεράκη, Μαρία el
heal.advisorName Pateraki, Maria en
heal.committeeMemberName Πατεράκη, Μαρία el
heal.committeeMemberName Δουλάμης, Νικόλαος el
heal.committeeMemberName Δουλάμης, Αναστάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Αγρονόμων και Τοπογράφων Μηχανικών. Τομέας Τοπογραφίας. Εργαστήριο Φωτογραμμετρίας el
heal.academicPublisherID ntua
heal.numberOfPages 108 σ.
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού 3.0 Ελλάδα