HEAL DSpace

Μοντέλα βαθιάς μηχανικής μάθησης πολλαπλών όψεων για κατηγοριοποίηση αντικειμένων

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Βλάχος, Ιωάννης el
dc.contributor.author Vlachos, Ioannis en
dc.date.accessioned 2023-01-23T12:21:03Z
dc.date.available 2023-01-23T12:21:03Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/56841
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.24539
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Πολλαπλές όψεις el
dc.subject Βαθιά μάθηση el
dc.subject Μέθοδοι σύντηξης el
dc.subject Σκαναρισμένα αντικείμενα el
dc.subject Βαθιά συνελικτικά δίκτυα πολλαπλών όψεων el
dc.subject Multi-view en
dc.subject Deep learning en
dc.subject Fusion methods en
dc.subject ModelNet en
dc.subject ScanObjectNN en
dc.title Μοντέλα βαθιάς μηχανικής μάθησης πολλαπλών όψεων για κατηγοριοποίηση αντικειμένων el
dc.title Multi-view deep neural networks for object classification en
heal.type masterThesis
heal.classification Machine learning en
heal.classification Μηχανική μάθηση el
heal.language el
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2022-11-08
heal.abstract Μία πρόκληση στην μηχανική μάθηση είναι η αναγνώριση τρισδιάστατων αντικειμένων ή σχημάτων. ΄Ετσι, ανακύπτει το ερώτημα για το αν το πρόβλημα πρέπει να προσεγγιστεί μέσω αναπαραστάσεων για 3D δεδομένα, όπως voxels, point clouds ή χωρικά πλέγματα. Αυτές οι αναπαραστάσεις έχουν ως θετικό ότι αξιοποιούν τη χωρική συσχέτιση μεταξύ των σημείων στο χώρο, πληροφορία που ενδέχεται να ερμηνεύσει ένα νευρωνικό δίκτυο στα διάφορα συνελικτικά επίπεδα που περιέχει. Από την άλλη, η δισδιάστατη αναπαράσταση των εικόνων είναι αυτή που ταιριάζει περισσότερο στην αντίληψη των πραγμάτων όπως την αντιλαμβάνεται ο μηχανισμός της όρασης και ο ανθρώπινος εγκέφαλος. Επιπρόσθετα, ο κλάδος της μηχανικής μάθησης έχει βελτιστοποιήσει σε μεγάλο βαθμό τη χρήση της εικόνας στα νευρωνικά δίκτυα, περισσότερο από ό,τι τις 3D αναπαραστάσεις. Σε συνέχεια των παραπάνω, ένα σύνηθες σενάριο είναι η ανάκτηση δεδομένων από πολλαπλές όψεις. Αυτό συναντάται σε σύνολα δεδομένων, όπου ενδέχεται να μην είναι αρκετή η εικόνα από μόλις μία όψη του αντικειμένου για την κατηγοριοποίησή του, όπως για παράδειγμα στην κατηγοριοποίηση σπάνιων ειδών φυτών που μοιάζουν μεταξύ τους. Είναι πιθανό φυσικά, η δημιουργία εικόνων από πολλαπλές όψεις να γίνεται σκόπιμα για την συλλογή περισσότερης πληροφορίας από 3D αναπαραστάσεις, όπως για παράδειγμα στην αναγνώριση ενός αντικειμένου σε μια γραμμή παραγωγής που εξάγει πολλαπλές κατηγορίες προϊόντων. Η παρούσα διπλωματική εξετάζει την δημιουργία μοντέλων που δέχονται ως είσοδο πολλαπλές όψεις ενός αντικειμένου και το κατηγοριοποιούν σε μία συγκεκριμένη κλάση. Αναλύονται διάφορες μέθοδοι για την σύντηξη διαφορετικών αναπαραστάσεων από πολλαπλές όψεις και την ενσωμάτωσή τους στην δομή του νευρωνικού δικτύου και τη διαδικασία εκπαίδευσης. Μετά την υλοποίηση αυτών, γίνεται σύγκριση μεταξύ τους πάνω σε δύο σύνολα δεδομένων: το ModelNet, το οποίο είναι βασισμένο σε CADs, και το ScanObjectNN το οποίο είναι βασισμένο σε σκαναρισμένα 3D αντικείμενα. Εκτός από την χρήση Multi-View νευρωνικών δικτύων, γίνεται και σύγκριση μεταξύ αυτής της προσέγγισης και παραδοσιακών μεθόδων ή τη χρήση τρισδιάστατων αναπαραστάσεων για το ίδιο πρόβλημα. Τέλος, γίνεται προσπάθεια αξιολόγησης της αξιοπιστίας των πολλαπλών όψεων για την εξαγωγή πιο βέβαιων συμπερασμάτων. Σκοπός είναι η ανάδειξη της προσέγγισης με συνελικτικά δίκτυα πολλαπλών όψεων για την κατηγοριοποίηση αντικειμένων σε σχέση με άλλες μεθόδους και η βελτιστοποίηση μοντέλων για την εύρεση της πιο ακριβής μεθόδου ανάλογα με το σύνολο δεδομένων που δίνεται. el
heal.abstract A challenging problem in machine learning is the recognition of 3D objects or shapes. So, the question arises as to whether the problem should be approached through representations for 3D data, such as voxels, point clouds or spatial grids. These representations have the advantage of reclaiming the spatial correlation between points in space, information that a neural network may interpret at the various convolutional levels it contains. On the other hand, two-dimensional representation of images is the one that best suits the perception of things as perceived by the human’s vision mechanism and brain. Additionally, the field of machine learning has greatly optimized the use of imagery in neural networks, more so than 3D representations. Following on from the above, a common scenario is to retrieve data from multiple views. This is encountered in datasets where the image from just one aspect of the object may not be sufficient for its classification, such as in the classification of rare plant species that look similar to each other. It is possible, of course, that the generation of images from multiple views is done intentionally to gather more information than 3D representations, such as in the identification of an object on a production line that outputs multiple product categories. This dissertation examines the creation of models that receive as input multiple aspects of an object and classify it into a specific class. Various methods for fusing different representations from multiple views and incorporating them into the neural network structure and training process are discussed. After their implementation, a comparison is made among them based on two data sets: ModelNet, which is CAD-based, and ScanObjectNN, which is based on scanned 3D objects. Apart from the use of Multi-View neural networks, a comparison is made between this approach and traditional methods or the use of three-dimensional representa tions for the same problem. Finally, an attempt is made to evaluate the reliability of the multiple aspects in order to draw more certain conclusions. The goal is to highlight the approach with multi-view convolutional networks for object classification in relation to other methods and to optimize models in order to find the most accurate method depending on the given data set. en
heal.advisorName Kollias, Stefanos en
heal.advisorName Κόλλιας, Στέφανος el
heal.committeeMemberName Κόλλιας, Στέφανος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 78 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής