| dc.contributor.author | Στάμου, Πηνελόπη
|
|
| dc.contributor.author | Stamou, Penelope
|
|
| dc.date.accessioned | 2025-09-22T09:21:11Z | |
| dc.date.available | 2025-09-22T09:21:11Z | |
| dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/62493 | |
| dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.30189 | |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject | Μεγάλα Γλωσσικά Μοντέλα | el |
| dc.subject | Πολυτροπικά Γλωσσικά Μοντέλα | el |
| dc.subject | Συστήματα Πολλαπλών Δραστών | el |
| dc.subject | Απάντηση Οπτικών Ερωτήσεων με Χρήση Εξωτερικής Γνώσης | el |
| dc.subject | Περιγραφή Εικόνας σε Παράγραφο | el |
| dc.subject | Large Language Models | en |
| dc.subject | Multimodal Large Language Models | en |
| dc.subject | Multi-Agent Systems | en |
| dc.subject | Knowledge-Based Visual Question Answering | en |
| dc.subject | Image Paragraph Captioning | en |
| dc.title | Enhancing Vision-Language Models: The role of LLMs in Augmenting Performance and Reasoning | en |
| dc.contributor.department | Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης | el |
| heal.type | bachelorThesis | |
| heal.secondaryTitle | Βελτιώνοντας τα Οπτικά-Γλωσσικά Μοντέλα: Ο Ρόλος των Μεγάλων Γλωσσικών Μοντέλων στη Βελτίωση της Απόδοσης και της Ικανότητας Συλλογιστικής | el |
| heal.classification | Machine Learning | en |
| heal.language | en | |
| heal.access | free | |
| heal.recordProvider | ntua | el |
| heal.publicationDate | 2025-03-21 | |
| heal.abstract | Τα Μοντέλα ΄Ορασης-Γλώσσας (VLMs) παρουσιάζουν πολύ καλές επιδόσεις σε σύνθετες οπτικο-γλωσσικές εργασίες. Τα αποτελέσματα πολλών ερευνητικών εργασιών δείχνουν πως οι τεχνικές προτροπής και οι μέθοδοι λεπτομερούς προσαρμογής μπορούν να χρησιμοποιηθούν για να ενισχύσουν την απόδοση των VLMs. Από την άλλη πλευρά, τα σύγχρονα πολυτροπικά LLMs εξακολουθούν να αντιμετωπίζουν δυσκολίες σε εργασίες που απαιτούν σύνθετη λογική, εξωτερική γνώση και απαντήσεις ευθυγραμμισμένες με τον άνθρωπο. Στην παρούσα διπλωματική εργασία, εξετάζουμε τους περιορισμούς των μεγάλων πολυτροπικών μοντέλων στην αντιμετώπιση προβλημάτων που απαιτούν εξωτερική γνώση και κοινή λογική. Εστιάζοντας στα σύνολα δεδομένων Stanford Image Paragraph Captioning και OK-VQA, διαπιστώνουμε ότι αν και τα πολυτροπικά LLMs παρουσιάζουν γνωστικές, γλωσσικές και λογικές ικανότητες, η απόδοσή τους περιορίζεται όταν αντιμετωπίζουν πολλές σύνθετες εργασίες ταυτόχρονα, ή όταν προσπαθούν να δώσουν απαντήσεις σε συγκεκριμένη μορφή, ακολουθώντας προκαθορισμένους κανόνες. Τα αποτελέσματα και η ανάλυσή μας δείχνουν ότι τα πολυτροπικά LLMs τελευταίας τεχνολογίας ξεπερνούν πολλές φορές τα υπάρχοντα σύνολα δεδομένων στην παραγωγή παραγράφων, ειδικά στις λεπτομέρειες που δίνουν, αλλά δυσκολεύονται στην εξαγωγή των σημαντικών στοιχείων του οπτικού περιεχομένου. Ομοίως, δυσκολεύονται με σύνολα δεδομένων περιγραφών εικόνων που στηρίζονται σε ερωτήματα που απαιτούν γνώση, όπως το OK-VQA. Για να ενισχύσουμε την απόδοσή τους σε αυτήν την περίπτωση, χρησιμοποιούμε ένα συνεργατικό πλαίσιο που περιλαμβάνει τρία μοντέλα: τον Ανιχνευτή, ένα LVLM που δέχεται μια εικόνα ως είσοδο και την περιγράφει σε μια παράγραφο, τον Αναλυτή, ένα LLM που δημιουργεί μια αρχική απάντηση στην ερώτηση με βάση την περιγραφή της εικόνας και τον Διαμορφωτή, ένα LLM που εξάγει και μορφοποιεί την τελική απάντηση με βάση ένα σύνολο προκαθορισμένων κανόνων. | el |
| heal.abstract | Vision-Language Models (VLMs) have demonstrated remarkable capabilities in complex visio-linguistic tasks. An extensive body of work has explored how prompting techniques and fine-tuning methods can be used to enhance their performance. However, modern multimodal LLMs still struggle with tasks that require complex reasoning, external knowledge, and human-aligned responses. In this work, we investigate the limitations of large-scale, multimodal models in handling open-ended tasks that demand external knowledge and commonsense reasoning. Focusing on the Stanford Image Paragraph Captioning and OK-VQA datasets, we find that although these models demonstrate substantial cognitive, linguistic, and reasoning abilities, their performance deteriorates when managing complex tasks simultaneously while adhering to specific response formats. Our analysis reveals that state-of-the-art multimodal models surpass existing datasets in paragraph generation but continue to face challenges in generating high-quality paragraphs. Similarly, they continue to struggle with knowledge-based, open-ended benchmarks such as OK-VQA. To boost their performance in the latter, we employ a collaborative framework comprising three models: the Scout, an LVLM that takes an image as input and describes it in a paragraph; the Analyser, an LLM that generates an initial answer to the question based on the image description; and the Resolver, an LLM that extracts and formats the final answer based on a set of predefined rules. Our framework yields improved performance over the single-agent baseline, indicating the effectiveness of a collaborative approach. | en |
| heal.advisorName | Βουλόδημος, Αθανάσιος | |
| heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας-Γεώργιος | |
| heal.committeeMemberName | Νικήτα, Κωνσταντίνα | |
| heal.academicPublisher | Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
| heal.academicPublisherID | ntua | |
| heal.numberOfPages | 120 | |
| heal.fullTextAvailability | false |
The following license files are associated with this item: