Compliance indicators based on computer vision using
the ChatGPT-4 artificial intelligence large language model

Athanasiadis, Georgios; Αθανασιάδης, Γεώργιος

dc.contributor.author	Athanasiadis, Georgios	en
dc.contributor.author	Αθανασιάδης, Γεώργιος	el
dc.date.accessioned	2025-02-14T10:46:36Z
dc.date.available	2025-02-14T10:46:36Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/61107
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.28803
dc.rights	Default License
dc.subject	Safety Monitoring	en
dc.subject	Computer Vision	en
dc.subject	ChatGPT-4	en
dc.subject	Object Recognition	en
dc.subject	Distance Estimation	en
dc.subject	Παρακολούθηση Ασφάλειας	el
dc.subject	Μηχανική Όραση	el
dc.subject	Αναγνώριση Αντικειμένων	el
dc.subject	Εκτίμηση Αποστάσεων	el
dc.title	Compliance indicators based on computer vision using the ChatGPT-4 artificial intelligence large language model	en
dc.title	Δείκτες συμμόρφωσης ασφάλειας βάσει μηχανικής όρασης με χρήση του γλωσσικού μοντέλου τεχνητής νοημοσύνης ChatGPT-4	el
heal.type	bachelorThesis
heal.classification	Mechanical Engineering	en
heal.language	en
heal.access	campus
heal.recordProvider	ntua	el
heal.publicationDate	2024-10
heal.abstract	This thesis explores the use of the Artificial Intelligence Large Language Model ChatGPT-4 in monitoring safety compliance in industrial environments, through a case study on a warehouse surveillance video. The main focus is on studying GPT-4’s capabilities to understand visual data and on evaluating the model’s performance on 12 custom metrics related to object recognition and distance measurement. These metrics were chosen with benchmarking GPT-4’s abilities mainly in mind, while trying to keep them in line with potential use as safety compliance indicators in real-world applications. Using a series of images from the examined video, the model was asked identify potential safety hazards, such as proximity of workers to forklifts, use of personal protective equipment, and proximity to hazardous materials. Its performance was evaluated by comparing its output with the ground truth, and calculating Precision and Recall values for each metric, along with other percentages and correlations. The results demonstrate that GPT-4 is very effective at recognizing objects found in industrial settings and shows promise in estimating distances between objects or areas, provided that prompts are well-constructed and don’t over-task the model. Limitations were observed in recognizing objects at a distance and objects that are partially obstructed. The results also showed that GPT-4 is prone to produce false positives when asked to identify objects that do not exist at all in the data. Despite these drawbacks, this thesis overall highlights GPT-4’s potential as a tool that can enable proactive, data-driven approaches in safety monitoring in industrial workplaces.	en
heal.abstract	Η παρούσα διπλωματική εργασία διερευνά τη χρήση του Γλωσσικού Μοντέλου Τεχνητής Νοημοσύνης ChatGPT-4 στην παρακολούθηση συμμόρφωσης με πρότυπα ασφάλειας σε βιομηχανικά περιβάλλοντα, μέσω μιας μελέτης περίπτωσης σε βίντεο μιας αποθήκης. Το κεντρικό θέμα της εργασίας είναι η εξέταση των ικανοτήτων του GPT-4 στην κατανόηση οπτικών δεδομένων και η αξιολόγηση της απόδοσής του σε 12 προσαρμοσμένους δείκτες, οι οποίοι σχετίζονται με την αναγνώριση αντικειμένων και τη μέτρηση αποστάσεων. Οι δείκτες αυτοί επιλέχθηκαν κυρίως για να δοκιμάσουν τις ικανότητες του GPT-4 στην ανίχνευση αντικειμένων, αλλά παράλληλα διατηρούν μια ενδεχόμενη χρήση ως δείκτες συμμόρφωσης με πρότυπα ασφάλειας σε πραγματικές εφαρμογές. Χρησιμοποιώντας μια σειρά εικόνων από το υπό εξέταση βίντεο, το μοντέλο κλήθηκε να εντοπίσει πιθανούς κινδύνους ασφαλείας, όπως την εγγύτητα των εργαζομένων σε οχήματα και μηχανήματα, τη χρήση ατομικού προστατευτικού εξοπλισμού και την εγγύτητα σε επικίνδυνα υλικά. Η απόδοση του μοντέλου αξιολογήθηκε μέσω της σύγκρισης των αποτελεσμάτων του με τα πραγματικά δεδομένα και του υπολογισμού τιμών Ακρίβειας και Ανάκλησης για κάθε δείκτη, μαζί με άλλες ποσοστιαίες τιμές και στατιστικές συσχετίσεις. Τα αποτελέσματα δείχνουν ότι το GPT-4 είναι ιδιαίτερα ικανό στην αναγνώριση αντικειμένων σε βιομηχανικά περιβάλλοντα και είναι υποσχόμενο όσον αφορά την εκτίμηση αποστάσεων μεταξύ αντικειμένων ή περιοχών, υπό την προϋπόθεση ότι τα prompts είναι καλώς δομημένα και δεν υπερφορτώνουν το μοντέλο. Εντοπίστηκαν αδυναμίες στην αναγνώριση αντικειμένων που βρίσκονται σε απόσταση ή είναι μερικώς κρυμμένα. Επιπλέον, τα αποτελέσματα έδειξαν ότι το GPT-4 τείνει να παράγει ψευδώς θετικά αποτελέσματα όταν του ζητείται να αναγνωρίσει αντικείμενα που δεν υπάρχουν στα δεδομένα. Παρά τα μειονεκτήματα, η εργασία αυτή αναδεικνύει συνολικά την προοπτική του GPT-4 ως εργαλείο που μπορεί να υποβοηθήσει την παρακολούθηση της ασφάλειας σε βιομηχανικούς χώρους εργασίας.	el
heal.advisorName	Nathanael, Dimitris	en
heal.advisorName	Ναθαναήλ, Δημήτριος	el
heal.committeeMemberName	Παναγιώτου, Νικόλαος	el
heal.committeeMemberName	Πόνης, Σταύρος	el
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Μηχανολόγων Μηχανικών. Τομέας Βιομηχανικής Διοίκησης και Επιχειρησιακής Έρευνας	el
heal.academicPublisherID	ntua
heal.numberOfPages	97 σ.	el
heal.fullTextAvailability	false