dc.contributor.author |
Βλάχος, Ιωάννης
|
el |
dc.contributor.author |
Vlachos, Ioannis
|
en |
dc.date.accessioned |
2023-01-23T12:21:03Z |
|
dc.date.available |
2023-01-23T12:21:03Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/56841 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.24539 |
|
dc.description |
Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" |
el |
dc.rights |
Default License |
|
dc.subject |
Πολλαπλές όψεις |
el |
dc.subject |
Βαθιά μάθηση |
el |
dc.subject |
Μέθοδοι σύντηξης |
el |
dc.subject |
Σκαναρισμένα αντικείμενα |
el |
dc.subject |
Βαθιά συνελικτικά δίκτυα πολλαπλών όψεων |
el |
dc.subject |
Multi-view |
en |
dc.subject |
Deep learning |
en |
dc.subject |
Fusion methods |
en |
dc.subject |
ModelNet |
en |
dc.subject |
ScanObjectNN |
en |
dc.title |
Μοντέλα βαθιάς μηχανικής μάθησης πολλαπλών όψεων για κατηγοριοποίηση αντικειμένων |
el |
dc.title |
Multi-view deep neural networks for object classification |
en |
heal.type |
masterThesis |
|
heal.classification |
Machine learning |
en |
heal.classification |
Μηχανική μάθηση |
el |
heal.language |
el |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2022-11-08 |
|
heal.abstract |
Μία πρόκληση στην μηχανική μάθηση είναι η αναγνώριση τρισδιάστατων αντικειμένων ή σχημάτων. ΄Ετσι, ανακύπτει το ερώτημα για το αν το πρόβλημα πρέπει να προσεγγιστεί μέσω αναπαραστάσεων για 3D δεδομένα, όπως voxels, point clouds ή χωρικά πλέγματα. Αυτές οι αναπαραστάσεις έχουν ως θετικό ότι αξιοποιούν τη χωρική συσχέτιση μεταξύ των σημείων στο χώρο, πληροφορία που ενδέχεται να ερμηνεύσει ένα νευρωνικό δίκτυο στα διάφορα συνελικτικά επίπεδα που περιέχει.
Από την άλλη, η δισδιάστατη αναπαράσταση των εικόνων είναι αυτή που ταιριάζει περισσότερο στην αντίληψη των πραγμάτων όπως την αντιλαμβάνεται ο μηχανισμός της όρασης και ο ανθρώπινος εγκέφαλος. Επιπρόσθετα, ο κλάδος της μηχανικής
μάθησης έχει βελτιστοποιήσει σε μεγάλο βαθμό τη χρήση της εικόνας στα νευρωνικά δίκτυα, περισσότερο από ό,τι τις 3D αναπαραστάσεις.
Σε συνέχεια των παραπάνω, ένα σύνηθες σενάριο είναι η ανάκτηση δεδομένων από πολλαπλές όψεις. Αυτό συναντάται σε σύνολα δεδομένων, όπου ενδέχεται να μην είναι αρκετή η εικόνα από μόλις μία όψη του αντικειμένου για την κατηγοριοποίησή
του, όπως για παράδειγμα στην κατηγοριοποίηση σπάνιων ειδών φυτών που μοιάζουν μεταξύ τους. Είναι πιθανό φυσικά, η δημιουργία εικόνων από πολλαπλές όψεις να γίνεται σκόπιμα για την συλλογή περισσότερης πληροφορίας από 3D αναπαραστάσεις, όπως για παράδειγμα στην αναγνώριση ενός αντικειμένου σε μια γραμμή παραγωγής που εξάγει πολλαπλές κατηγορίες προϊόντων.
Η παρούσα διπλωματική εξετάζει την δημιουργία μοντέλων που δέχονται ως είσοδο πολλαπλές όψεις ενός αντικειμένου και το κατηγοριοποιούν σε μία συγκεκριμένη κλάση. Αναλύονται διάφορες μέθοδοι για την σύντηξη διαφορετικών αναπαραστάσεων από πολλαπλές όψεις και την ενσωμάτωσή τους στην δομή του νευρωνικού δικτύου και τη διαδικασία εκπαίδευσης. Μετά την υλοποίηση αυτών, γίνεται σύγκριση μεταξύ
τους πάνω σε δύο σύνολα δεδομένων: το ModelNet, το οποίο είναι βασισμένο σε CADs, και το ScanObjectNN το οποίο είναι βασισμένο σε σκαναρισμένα 3D αντικείμενα.
Εκτός από την χρήση Multi-View νευρωνικών δικτύων, γίνεται και σύγκριση μεταξύ αυτής της προσέγγισης και παραδοσιακών μεθόδων ή τη χρήση τρισδιάστατων αναπαραστάσεων για το ίδιο πρόβλημα. Τέλος, γίνεται προσπάθεια αξιολόγησης της
αξιοπιστίας των πολλαπλών όψεων για την εξαγωγή πιο βέβαιων συμπερασμάτων.
Σκοπός είναι η ανάδειξη της προσέγγισης με συνελικτικά δίκτυα πολλαπλών όψεων για την κατηγοριοποίηση αντικειμένων σε σχέση με άλλες μεθόδους και η βελτιστοποίηση μοντέλων για την εύρεση της πιο ακριβής μεθόδου ανάλογα με το σύνολο δεδομένων που δίνεται. |
el |
heal.abstract |
A challenging problem in machine learning is the recognition of 3D objects or shapes. So, the question arises as to whether the problem should be approached through representations for 3D data, such as voxels, point clouds or spatial grids.
These representations have the advantage of reclaiming the spatial correlation between points in space, information that a neural network may interpret at the various convolutional levels it contains.
On the other hand, two-dimensional representation of images is the one that best suits the perception of things as perceived by the human’s vision mechanism and brain. Additionally, the field of machine learning has greatly optimized the use of
imagery in neural networks, more so than 3D representations.
Following on from the above, a common scenario is to retrieve data from multiple views. This is encountered in datasets where the image from just one aspect of the object may not be sufficient for its classification, such as in the classification of rare plant species that look similar to each other. It is possible, of course, that the generation of images from multiple views is done intentionally to gather more information than 3D representations, such as in the identification of an object on a production line that outputs multiple product categories.
This dissertation examines the creation of models that receive as input multiple aspects of an object and classify it into a specific class. Various methods for fusing different representations from multiple views and incorporating them into the neural network structure and training process are discussed. After their implementation, a comparison is made among them based on two data sets: ModelNet, which is CAD-based, and ScanObjectNN, which is based on scanned 3D objects.
Apart from the use of Multi-View neural networks, a comparison is made between this approach and traditional methods or the use of three-dimensional representa tions for the same problem. Finally, an attempt is made to evaluate the reliability of the multiple aspects in order to draw more certain conclusions.
The goal is to highlight the approach with multi-view convolutional networks for object classification in relation to other methods and to optimize models in order to find the most accurate method depending on the given data set. |
en |
heal.advisorName |
Kollias, Stefanos
|
en |
heal.advisorName |
Κόλλιας, Στέφανος |
el |
heal.committeeMemberName |
Κόλλιας, Στέφανος |
el |
heal.committeeMemberName |
Βουλόδημος, Αθανάσιος |
el |
heal.committeeMemberName |
Στάμου, Γεώργιος |
el |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
78 σ. |
el |
heal.fullTextAvailability |
false |
|