HEAL DSpace

Auditory insights into visual scenes: A modular approach leveraging audio separation and advanced language models

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Κοκκίνης, Δημήτριος el
dc.contributor.author Kokkinis, Dimitrios en
dc.date.accessioned 2025-11-24T09:45:39Z
dc.date.available 2025-11-24T09:45:39Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/62921
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.30617
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Πολυτροπικά μεγάλα γλωσσικά μοντέλα el
dc.subject Γλωσσικά μοντέλα ήχου el
dc.subject Διαχωρισμός καθολικού ήχου el
dc.subject Προτροπή el
dc.subject Παραγωγή εικόνας el
dc.subject Multi-modal large language models en
dc.subject Audio language models en
dc.subject Universal sound separation en
dc.subject Prompting en
dc.subject Image generation en
dc.title Auditory insights into visual scenes: A modular approach leveraging audio separation and advanced language models en
dc.title Ακουστικές πληροφορίες σε οπτικές σκηνές: Μια αρθρωτή προσέγγιση με χρήση διαχωρισμού ήχου και προηγμένων γλωσσικών μοντέλων el
heal.type bachelorThesis
heal.classification Multimodal AI en
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2025-03-26
heal.abstract Η παραγωγική τεχνητή νοημοσύνη βρίσκεται στο επίκεντρο της προσοχής λόγω σημαντικών εξελίξεων, όπως η καθοδηγούμενη παραγωγή εικόνας, που έχουν επιτρέψει την διαδεδομένη εφαρμογή της σε πολλούς τομείς. Παρόλο που το κείμενο ως μέσο καθοδήγησης είναι αρκετά άμεσο και συνεκτικό, στερείται της φυσικής σύνδεσης που υπάρχει ανάμεσα στον οπτικό και ακουστικό κόσμο, αδυνατώντας να εκφράσει όλο το φάσμα των πληροφοριών. Για το λόγο αυτό, αρκετές έρευνες έχουν προτείνει μοντέλα παραγωγής εικόνας από ήχο, τα οποία ωστόσο, είναι περιορισμένα σε απλοϊκούς ήχους και δεν έχουν την ικανότητα να παράξουν εικόνα από μια σύνθετη ακουστική σκηνή. Η επεξεργασία της ακουστικής πληροφορίας, απαιτεί μια περίπλοκη διαδικασία που συμπεριλαμβάνει τη συλλογιστική ως μέσο για το συμπερασμό λεπτομερειών. Πρόσφατα, τα μεγάλα γλωσσικά μοντέλα έχουν παρουσιάσει ικανότητες συλλογιστικής και έτσι έχουν ενσωματωθεί σε μοντέλα με εκτεταμένες πολυτροπικές δυνατότητες, τα οποία αποτελούμενα απο πολυτροπικούς κωδικοποιητές και μεγάλα γλωσσικά μοντέλα, διαθέτουν την ικανότητα να κατανοούν τον ήχο και να εξάγουν χρήσιμα συμπεράσματα από το περιεχόμενό του. Στη διπλωματική αυτή, αρχικά ερευνάται η ικανότητα των μεγάλων γλωσσικών μοντέλων ήχου (ALLMs) να παράγουν μια λογική και οπτικά λεπτομερή περιγραφή. Στη συνέχεια, μελετάται μια νέα προσέγγιση στη παραγωγή εικόνας που αξιοποιεί ALLMs και προτείνεται ένα πλαίσιο, σχεδιασμένο για τη διαμόρφωση ευρηματικών οπτικών περιγραφών από σύνθετες ακουστικές εισόδους. Η προτεινόμενη αυτή μέθοδος, αξιοποιεί ένα μοντέλο διαχωρισμού ήχου, ένα γλωσσικό μοντέλο ήχου, ένα μεγάλο γλωσσικό μοντέλο και ένα μοντέλο παραγωγής εικόνας. Αρχικά ο δοσμένος ήχος αποσυντίθενται στις επιμέρους πηγές του και ερμηνεύεται από το γλωσσικό μοντέλο ήχου, το οποίο μεταφράζει το ακουστικό περιεχόμενο σε κειμενικές περιγραφές. Έπειτα, οι περιγραφές αυτές δίνονται ως είσοδοι στο μεγάλο γλωσσικό μοντέλο για τη λογική σύνδεσή τους σε μια οπτική σκηνή από την οποία θα μπορούσε να είχε προκύψει ο ήχος. Η τελική αυτή περιγραφή χρησιμοποιείται για τη καθοδήγηση της παραγωγής εικόνας. Η αποδοτικότητα των εκάστοτε μεθόδων, αξιολογείται από μια σειρά ποσοτικών αλλά και ποιοτικών μετρικών. Αξιοποιώντας την εσωτερική γνώση και τη συλλογιστική που διαθέτουν τα μεγάλα γλωσσικά μοντέλα, η εργασία αυτή έχει ως σκοπό τη παράκαμψη των περιορισμών που επιβάλλουν τα σχετικά μικρά σύνολα δεδομένων ήχου, καταφέρνοντας να αποφανθούν λεπτομέρειες από τον δοσμένο ήχο μέσω συλλογιστικής και παράγοντας μια αληθοφανή περιγραφή της οπτικής σκηνής. el
heal.abstract Generative AI has garnered significant interest due to its remarkable advancements in guided image generation, which have enabled its widespread application across various fields. Although text is straightforward, it lacks the inherent connection that exists between visual and auditory realms, being unable to convey the entire spectrum of information. To that end, a number of works have introduced audio-guided image generation. However, they are limited to plain sounds and struggle to picture an intricate acoustic scene. Auditory information requires a complex process involving reasoning to infer missing details. Recently, Large Langage Models have exhibited reasoning abilities and have been integrated as the cognitive powerhouse of models with multi-modal extented abilities. These models, consisting of multi-modal encoders and LLM, have the capacity to understand audio and reason about its content. This thesis first investigates the capability of Audio Large Language Models (ALLMs) to produce a coherent and visually detailed description. It further explores a novel approach to image generation by leveraging ALLMs and introduces a structured framework designed to transform complex auditory inputs into meaningful and imaginative visual representations. The proposed pipeline integrates multiple components, including an audio source separation model, an audio language model (ALM), a large language model (LLM), and an image generation model. By first decomposing mixed audio into distinct sources, the ALM interprets and translates auditory information into textual descriptions, which are subsequently refined by the LLM to enhance contextual understanding. The resulting structured textual representation is then used to guide the image generation model, producing images that align semantically with the original audio input. The efficacy of the methodologies is assessed through a combination of quantitative and qualitative measures. By leveraging the internal knowledge and linguistic reasoning of LLMs, this research aims at alleviating the limitations imposed by constrained audio datasets, managing to infer visual details that can be deduced from the input audio, and producing a plausible description of the visual scene. en
heal.advisorName Βουλόδημος, Αθανάσιος el
heal.committeeMemberName Στάμου, Γεώργιος el
heal.committeeMemberName Σταφυλοπάτης, Ανδρέας-Γεώργιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης el
heal.academicPublisherID ntua
heal.numberOfPages 130 σ el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα