HEAL DSpace

Αναγνώριση σκηνής και ανίχνευση προσωπικού και μηχανολογικού εξοπλισμού με χρήση συνθετικών εικόνων από μοντέλα διάχυσης

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Λύτρας, Χρήστος el
dc.contributor.author Lytras, Christos en
dc.date.accessioned 2024-02-13T09:28:34Z
dc.date.available 2024-02-13T09:28:34Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/58851
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.26547
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μηχανική Όραση el
dc.subject Μηχανική Μάθηση el
dc.subject Ανίχνευση Αντικειμένων el
dc.subject Μοντέλα Διάχυσης el
dc.subject Συνθετικό Σύνολο Δεδομένων el
dc.subject Computer Vision en
dc.subject Machine Learning en
dc.subject Object Detection en
dc.subject Diffusion Models en
dc.subject Synthetic Dataset en
dc.title Αναγνώριση σκηνής και ανίχνευση προσωπικού και μηχανολογικού εξοπλισμού με χρήση συνθετικών εικόνων από μοντέλα διάχυσης el
dc.title Scene recognition and detection of personnel and machinery using synthetic images from diffusion models en
heal.type bachelorThesis
heal.classification Μηχανική Όραση el
heal.classification Μηχανική Μάθηση el
heal.classification Computer Vision en
heal.classification Machine Learning en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2023-10-13
heal.abstract Το ολοένα και αυξανόμενο ενδιαφέρον για αποτελεσματικές μεθόδους ανίχνευσης αντικειμένων στο επίπεδο παραγωγής έχει ωθήσει την αναζήτηση καινοτόμων λύσεων για την αντιμετώπιση της έλλειψης διαθέσιμων στο κοινό συνόλων δεδομένων σχετικών με αυτόν τον τομέα. Η παρούσα διπλωματική εργασία ερευνά εκτενώς τη χρήση καινοτόμων μοντέλων διάχυσης κειμένου-σε-εικόνα για τη παραγωγή συνθετικών δεδομένων, για να αντισταθμίσει την απουσία πραγματικών δεδομένων, με σκοπό την εκπαίδευση μοντέλων ανίχνευσης αντικειμένων στο επίπεδο παραγωγής. Η μελέτη αντλεί από τους τομείς της μηχανικής μάθησης, της μηχανικής όρασης και της μηχανολογίας για την ανάπτυξη μιας σύνθετης προσέγγισης δημιουργίας συνθετικού συνόλου δεδομένων. Η διαδικασία περιλαμβάνει την τριδιάστατη μοντελοποίηση των υπό μελέτη αντικειμένων, την εισαγωγή μεταβλητότητας μέσω της τυχαιοποίησης των παραμέτρων μιας εικονικής σκηνής και την επακόλουθη σύνθεση αληθοφανών εικόνων μέσω του Stable Diffusion, ενός μοντέλου βαθιάς μάθησης τελευταίας τεχνολογίας που εισήχθη το 2022, το οποίο αξιοποιεί μεθόδους διάχυσης στον λανθάνοντα χώρο για τη σύνθεση αληθοφανών εικόνων βάσει περιγραφών κειμένου. Το ControlNet χρησιμοποιείται για τον περαιτέρω έλεγχο της σύνθεσης των εικόνων, χρησιμοποιώντας εικόνες βάθους της εικονικής σκηνής ως συνθήκες για την απόδοση εικόνων που ακολουθούν πιστά τα χαρακτηριστικά των αντικειμένων και της εικονικής σκηνής. Το παραγόμενο συνθετικό σύνολο δεδομένων χαρακτηρίζεται από υψηλό βαθμό μεταβλητότητας και αποτελείται από συντεθειμένες εικόνες που περιλαμβάνουν μηχανολογικό εξοπλισμό μαζί με το εργαζόμενο προσωπικό. Επιπλέον, συλλέγεται ένα μικρό σύνολο δεδομένων από αληθινές εικόνες των υπό μελέτη αντικειμένων. Εκπαιδεύονται τρία μοντέλα ανίχνευσης αντικειμένων τύπου YOLO (You Only Look Once) αντίστοιχα με συνθετικά δεδομένα, με αληθινά δεδομένα και με συνδυασμό των δύο και στη συνέχεια αξιολογούνται ως προς ένα σύνολο επικύρωσης που αποτελείται από αληθινές εικόνες. Μέσω της σύγκρισης της επίδοσης των μοντέλων, εξετάζεται η αποτελεσματικότητα της προτεινόμενης προσέγγισης ως προς την ικανότητα ανίχνευσης αντικειμένων σε πραγματικές συνθήκες. Το μοντέλο που εκπαιδεύτηκε αρχικά με συνθετικά δεδομένα και έπειτα προσαρμόστηκε με αληθινές εικόνες επιτυγχάνει την υψηλότερη επίδοση, εμφανίζοντας αύξηση 3.1% στη συνολική μέση ακρίβειας – mAP σε σχέση με το μοντέλο που εκπαιδεύτηκε αποκλειστικά με αληθινά δεδομένα. el
heal.abstract The increasing interest in effective object detection methods in manufacturing floors has prompted the exploration of innovative solutions to address the scarcity of publicly available datasets relevant to this domain. This thesis presents a comprehensive investigation into the utilization of novel text-to-image diffusion models for synthetic data generation, to mitigate the absence of real-world data for training models for object detection in the production floor. This study draws from the domains of computer vision, machine learning, and mechanical engineering to develop a multifaceted approach for the generation of a synthetic dataset. The approach includes the 3D modeling of the objects of interest, the introduction of variability through the randomization of parameters of a virtual scene, and the subsequent generation of photorealistic images using Stable Diffusion, a cutting-edge deep learning model introduced in 2022 which leverages latent diffusion techniques to synthesize photorealistic images based on textual descriptions. The image generation process is fine tuned by ControlNet, utilizing previously rendered depth maps as conditions to yield images closely aligned with visual cues of the objects and the virtual scene. The resulting dataset has a high degree of variability and is composed of collated images which include production equipment and personnel simultaneously. Additionally, a small dataset consisting of real images of the objects of interest is collected. Three YOLO (You Only Look Once) type object detection models are trained respectively on synthetic data, real data and a combination of the two, and subsequently evaluated on a validation set consisting of real-world images. By comparing the performance of each model, the efficacy of the proposed approach for object detection on real world conditions is examined. The model which was pretrained on synthetic data and later fine-tuned with real images achieves the highest performance, showing a 3.1% increase in mean average precision – mAP in comparison to the model trained exclusively on real data. en
heal.advisorName Μπενάρδος, Πανώριος el
heal.committeeMemberName Μπενάρδος, Πανώριος el
heal.committeeMemberName Ναθαναήλ, Δημήτριος el
heal.committeeMemberName Βοσνιάκος, Γεώργιος - Χριστόφορος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Μηχανολόγων Μηχανικών. Τομέας Τεχνολογίας των Κατεργασιών el
heal.academicPublisherID ntua
heal.numberOfPages 79 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα