HEAL DSpace

Enhancing Vision-Language Models: The role of LLMs in Augmenting Performance and Reasoning

DSpace/Manakin Repository

Show simple item record

dc.contributor.author Στάμου, Πηνελόπη
dc.contributor.author Stamou, Penelope
dc.date.accessioned 2025-09-22T09:21:11Z
dc.date.available 2025-09-22T09:21:11Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62493
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30189
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Μεγάλα Γλωσσικά Μοντέλα el
dc.subject Πολυτροπικά Γλωσσικά Μοντέλα el
dc.subject Συστήματα Πολλαπλών Δραστών el
dc.subject Απάντηση Οπτικών Ερωτήσεων με Χρήση Εξωτερικής Γνώσης el
dc.subject Περιγραφή Εικόνας σε Παράγραφο el
dc.subject Large Language Models en
dc.subject Multimodal Large Language Models en
dc.subject Multi-Agent Systems en
dc.subject Knowledge-Based Visual Question Answering en
dc.subject Image Paragraph Captioning en
dc.title Enhancing Vision-Language Models: The role of LLMs in Augmenting Performance and Reasoning en
dc.contributor.department Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.type bachelorThesis
heal.secondaryTitle Βελτιώνοντας τα Οπτικά-Γλωσσικά Μοντέλα: Ο Ρόλος των Μεγάλων Γλωσσικών Μοντέλων στη Βελτίωση της Απόδοσης και της Ικανότητας Συλλογιστικής el
heal.classification Machine Learning en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-03-21
heal.abstract Τα Μοντέλα ΄Ορασης-Γλώσσας (VLMs) παρουσιάζουν πολύ καλές επιδόσεις σε σύνθετες οπτικο-γλωσσικές εργασίες. Τα αποτελέσματα πολλών ερευνητικών εργασιών δείχνουν πως οι τεχνικές προτροπής και οι μέθοδοι λεπτομερούς προσαρμογής μπορούν να χρησιμοποιηθούν για να ενισχύσουν την απόδοση των VLMs. Από την άλλη πλευρά, τα σύγχρονα πολυτροπικά LLMs εξακολουθούν να αντιμετωπίζουν δυσκολίες σε εργασίες που απαιτούν σύνθετη λογική, εξωτερική γνώση και απαντήσεις ευθυγραμμισμένες με τον άνθρωπο. Στην παρούσα διπλωματική εργασία, εξετάζουμε τους περιορισμούς των μεγάλων πολυτροπικών μοντέλων στην αντιμετώπιση προβλημάτων που απαιτούν εξωτερική γνώση και κοινή λογική. Εστιάζοντας στα σύνολα δεδομένων Stanford Image Paragraph Captioning και OK-VQA, διαπιστώνουμε ότι αν και τα πολυτροπικά LLMs παρουσιάζουν γνωστικές, γλωσσικές και λογικές ικανότητες, η απόδοσή τους περιορίζεται όταν αντιμετωπίζουν πολλές σύνθετες εργασίες ταυτόχρονα, ή όταν προσπαθούν να δώσουν απαντήσεις σε συγκεκριμένη μορφή, ακολουθώντας προκαθορισμένους κανόνες. Τα αποτελέσματα και η ανάλυσή μας δείχνουν ότι τα πολυτροπικά LLMs τελευταίας τεχνολογίας ξεπερνούν πολλές φορές τα υπάρχοντα σύνολα δεδομένων στην παραγωγή παραγράφων, ειδικά στις λεπτομέρειες που δίνουν, αλλά δυσκολεύονται στην εξαγωγή των σημαντικών στοιχείων του οπτικού περιεχομένου. Ομοίως, δυσκολεύονται με σύνολα δεδομένων περιγραφών εικόνων που στηρίζονται σε ερωτήματα που απαιτούν γνώση, όπως το OK-VQA. Για να ενισχύσουμε την απόδοσή τους σε αυτήν την περίπτωση, χρησιμοποιούμε ένα συνεργατικό πλαίσιο που περιλαμβάνει τρία μοντέλα: τον Ανιχνευτή, ένα LVLM που δέχεται μια εικόνα ως είσοδο και την περιγράφει σε μια παράγραφο, τον Αναλυτή, ένα LLM που δημιουργεί μια αρχική απάντηση στην ερώτηση με βάση την περιγραφή της εικόνας και τον Διαμορφωτή, ένα LLM που εξάγει και μορφοποιεί την τελική απάντηση με βάση ένα σύνολο προκαθορισμένων κανόνων. el
heal.abstract Vision-Language Models (VLMs) have demonstrated remarkable capabilities in complex visio-linguistic tasks. An extensive body of work has explored how prompting techniques and fine-tuning methods can be used to enhance their performance. However, modern multimodal LLMs still struggle with tasks that require complex reasoning, external knowledge, and human-aligned responses. In this work, we investigate the limitations of large-scale, multimodal models in handling open-ended tasks that demand external knowledge and commonsense reasoning. Focusing on the Stanford Image Paragraph Captioning and OK-VQA datasets, we find that although these models demonstrate substantial cognitive, linguistic, and reasoning abilities, their performance deteriorates when managing complex tasks simultaneously while adhering to specific response formats. Our analysis reveals that state-of-the-art multimodal models surpass existing datasets in paragraph generation but continue to face challenges in generating high-quality paragraphs. Similarly, they continue to struggle with knowledge-based, open-ended benchmarks such as OK-VQA. To boost their performance in the latter, we employ a collaborative framework comprising three models: the Scout, an LVLM that takes an image as input and describes it in a paragraph; the Analyser, an LLM that generates an initial answer to the question based on the image description; and the Resolver, an LLM that extracts and formats the final answer based on a set of predefined rules. Our framework yields improved performance over the single-agent baseline, indicating the effectiveness of a collaborative approach. en
heal.advisorName Βουλόδημος, Αθανάσιος
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος
heal.committeeMemberName Νικήτα, Κωνσταντίνα
heal.academicPublisher Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 120
heal.fullTextAvailability false


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Except where otherwise noted, this item's license is described as Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα