dc.contributor.author | Γιαδικιάρογλου, Παναγιώτης![]() |
el |
dc.contributor.author | Giadikiaroglou, Panagiotis![]() |
en |
dc.date.accessioned | 2025-03-26T12:10:25Z | |
dc.date.available | 2025-03-26T12:10:25Z | |
dc.identifier.uri | https://dspace.lib.ntua.gr/xmlui/handle/123456789/61469 | |
dc.identifier.uri | http://dx.doi.org/10.26240/heal.ntua.29165 | |
dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
dc.subject | Large Language Models | en |
dc.subject | Reasoning | en |
dc.subject | Puzzle Solving | en |
dc.subject | Prompting | en |
dc.subject | Neurosymbolic Methods | en |
dc.title | Investigating the capabilities of language models in puzzle reasoning: A survey and experimental analysis | en |
dc.title | Διερευνώντας τις δυνατότητες των γλωσσικών μοντέλων σε συλλογιστική παζλ: Μια βιβλιογραφική και πειραματική ανάλυση | el |
heal.type | bachelorThesis | |
heal.classification | Large Language Models | en |
heal.language | en | |
heal.access | free | |
heal.recordProvider | ntua | el |
heal.publicationDate | 2024-10-24 | |
heal.abstract | Puzzle-solving has long served as a benchmark for evaluating artificial intelligence, testing a model’s ability to reason, infer, and strategize across complex problem spaces. Traditional AI and machine learning methods, such as symbolic reasoning and reinforcement learning, have made notable strides in structured domains like board games and logic puzzles. However, as neural networks and, more recently, large language models (LLMs) have evolved, new possibilities have emerged for tackling a broader range of puzzle types, including those requiring nuanced commonsense reasoning, abstract pattern recognition, and complex multi-step calculations. LLMs, with their vast data-driven language capabilities, hold unique potential to bridge structured logical tasks and less formal, knowledge-based puzzles. Despite these advances, the current landscape of puzzle-solving with LLMs reveals both achievements and limitations, particularly when models are tasked with problems that demand interpretative reasoning and precise calculation. This thesis explores the evolving role of LLMs in solving such complex reasoning tasks, specifically focusing on their puzzle-solving capabilities. Divided into two main sections, the thesis first provides a comprehensive survey of recent advancements in LLM methodologies, covering diverse prompting techniques, neuro-symbolic approaches, and fine-tuning strategies for puzzles. Using a newly proposed taxonomy, puzzles are categorized into rule-based and rule-less types, with each category examined for its unique cognitive demands on LLMs. The second section presents experimental evaluations conducted on four datasets—two math-based datasets (GSM8K, SVAMP) and two puzzle-focused datasets (Game of 24 and RiddleSense). Various reasoning techniques, including Input-Output (IO) prompting, Chain-of-Thought (CoT), Least-to-Most (LtM), and Faithful-CoT methods, are employed to assess LLM performance. Models of varying scales, particularly smaller LLMs like Llama-3.1 family and Mistral, are tested across settings such as zero-shot, few-shot, and self-consistency to evaluate their efficacy in solving complex and multi-step reasoning tasks. The thesis provides critical insights into the performance limitations of current LLMs in puzzle-solving, particularly noting that advanced reasoning methods like Faithful-CoT and puzzle translation techniques yield inconsistent improvements with smaller models. Finally, it outlines future research directions, advocating for expanded dataset creation, neuro-symbolic integration, and advancements in puzzle generation. This thesis aims to deepen our understanding of LLMs' reasoning abilities and highlight pathways to enhance their performance in complex cognitive tasks. | en |
heal.abstract | Η επίλυση γρίφων αποτελεί σημείο αναφοράς για την αξιολόγηση των μοντέλων τεχνητής νοημοσύνης, δοκιμάζοντας την ικανότητα τους να σκέφτονται, να συμπεραίνουν και να καταστρώνουν στρατηγικές σε πολύπλοκους χώρους προβλημάτων. Οι παραδοσιακές μέθοδοι τεχνητής νοημοσύνης και μηχανικής μάθησης, όπως η συμβολική συλλογιστική και η ενισχυτική μάθηση, έχουν σημειώσει αξιοσημείωτα βήματα σε δομημένους τομείς όπως τα επιτραπέζια παιχνίδια και οι λογικοί γρίφοι. Ωστόσο, καθώς εξελίχθηκαν τα νευρωνικά δίκτυα και, πιο πρόσφατα, τα μεγάλα γλωσσικά μοντέλα (ΜΓΜ), προέκυψαν νέες δυνατότητες για την αντιμετώπιση ενός ευρύτερου φάσματος τύπων γρίφων, συμπεριλαμβανομένων εκείνων που απαιτούν λεπτή συλλογιστική κοινής λογικής, αφηρημένη αναγνώριση προτύπων και πολύπλοκους υπολογισμούς πολλών βημάτων. Τα ΜΓΜ, με τις γλωσσικές δυνατότητες που βασίζονται σε τεράστιους όγκους δεδομένων, διαθέτουν μοναδικές δυνατότητες για τη γεφύρωση δομημένων λογικών εργασιών και λιγότερο τυπικών γρίφων που βασίζονται σε κοινή γνώση. Παρά τις προόδους αυτές, το σημερινό τοπίο της επίλυσης γρίφων με ΜΓΜ αποκαλύπτει τόσο επιτεύγματα όσο και περιορισμούς, ιδίως όταν τα μοντέλα επιφορτίζονται με προβλήματα που απαιτούν ερμηνευτική συλλογιστική και ακριβείς υπολογισμούς. Η παρούσα διπλωματική εργασία διερευνά τον εξελισσόμενο ρόλο των ΜΓΜ στην επίλυση τέτοιων σύνθετων συλλογιστικών προβλημάτων, εστιάζοντας ειδικά στις ικανότητές τους στην επίλυση γρίφων. Χωρισμένη σε δύο κύριες ενότητες, η διπλωματική παρέχει αρχικά μια ολοκληρωμένη επισκόπηση των πρόσφατων εξελίξεων στις μεθοδολογίες ΜΓΜ, καλύπτοντας ποικίλες τεχνικές προτροπής, νευροσυμβολικές προσεγγίσεις και στρατηγικές τελειοποίησης για παζλ. Χρησιμοποιώντας μια νέα προτεινόμενη ταξινόμηση, τα παζλ κατηγοριοποιούνται σε προβλήματα βασισμένα σε κανόνες και προβλήαμτα χωρίς συγκεκριμένους κανόνες, ενώ κάθε κατηγορία εξετάζεται για τις μοναδικές γνωστικές απαιτήσεις της από τα ΜΓΜ. Στη δεύτερη ενότητα παρουσιάζονται πειραματικές αξιολογήσεις που πραγματοποιήθηκαν σε τέσσερα σύνολα δεδομένων - δύο σύνολα δεδομένων που βασίζονται στα μαθηματικά (GSM8K, SVAMP) και δύο σύνολα δεδομένων που εστιάζουν σε γρίφους (Game of 24 και RiddleSense). Διάφορες τεχνικές συλλογισμού, συμπεριλαμβανομένων των προτροπών εισόδου-εξόδου (IO), των μεθόδων Chain-of-Thought (CoT), Least-to-Most (LtM) και Faithful-CoT, χρησιμοποιούνται για την αξιολόγηση των επιδόσεων των ΜΓΜ. Μοντέλα διαφορετικής κλίμακας, ιδιαίτερα μικρότερα ΜΓΜ όπως η οικογένεια μοντέλων Llama-3.1 και το Mistral, δοκιμάζονται σε περιπτώσεις όπου χρησιμοποιούνται μηδενικό πλήθος παραδειγμάτων κατά την προτροπή, ένας συγκεκριμένος αριθμός παραδειγμάτων καθώς επίσης η τεχνική της αυτοσυνέπειας για να αξιολογηθεί η αποτελεσματικότητά τους στην επίλυση σύνθετων και πολλαπλών βημάτων συλλογιστικών εργασιών. Η διπλωματική εργασία παρέχει κρίσιμες πληροφορίες σχετικά με τους περιορισμούς απόδοσης των σημερινών ΜΓΜ στην επίλυση γρίφων, σημειώνοντας ιδιαίτερα ότι προηγμένες μέθοδοι συλλογισμού όπως το Faithful-CoT και οι τεχνικές μετάφρασης γρίφων αποδίδουν ασυνεχείς βελτιώσεις στα μικρότερα μοντέλα. Τέλος, σκιαγραφεί μελλοντικές ερευνητικές κατευθύνσεις, υποστηρίζοντας τη δημιουργία διευρυμένων συνόλων δεδομένων, την ανάπτυξη νευροσυμβολικών μεθόδων και την ενδεχόμενη πρόοδο στην περιοχή δημιουργίας και παραγωγής παζλ από ΜΓΜ. Η παρούσα διπλωματική εργασία αποσκοπεί στην εμβάθυνση της κατανόησης των συλλογιστικών ικανοτήτων των ΜΓΜ και στην ανάδειξη μονοπατιών για την ενίσχυση των επιδόσεών τους σε σύνθετα γνωστικά καθήκοντα. | el |
heal.advisorName | Στάμου, Γεώργιος | el |
heal.committeeMemberName | Βουλόδημος, Αθανάσιος | el |
heal.committeeMemberName | Σταφυλοπάτης, Ανδρέας Γεώργιος | el |
heal.academicPublisher | Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης | el |
heal.academicPublisherID | ntua | |
heal.numberOfPages | 130 σ. | el |
heal.fullTextAvailability | false |
Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο: