HEAL DSpace

Multimodal approaches to automatic lyric generation

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Μπάρλου, Όλγα el
dc.contributor.author Barlou, Olga en
dc.date.accessioned 2025-03-27T08:20:48Z
dc.date.available 2025-03-27T08:20:48Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/61473
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.29169
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα *
dc.rights Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ *
dc.subject Πολυτροπικά Μοντέλα el
dc.subject Μεγάλα Γλωσσικά Μοντέλα el
dc.subject Επεξεργασία Φυσικής Γλώσσας el
dc.subject Ανάκτηση Μουσικής Πληροφορίας el
dc.subject Μηχανική Μάθηση el
dc.subject Multimodal Models en
dc.subject Large Language Models en
dc.subject Natural Language Processing en
dc.subject Music Information Retrieval en
dc.subject Machine Learning en
dc.title Multimodal approaches to automatic lyric generation en
heal.type bachelorThesis
heal.classification Τεχνητή Νοημοσύνη el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-10-18
heal.abstract Η μουσική διαδραματίζει θεμελιώδη ρόλο στον ανθρώπινο πολιτισμό, λειτουργώντας ως παγκόσμια γλώσσα που ξεπερνά τα εμπόδια και έχει βαθιά απήχηση στα συναισθήματα και τις εμπειρίες των ανθρώπων. Καθώς η τεχνητή νοημοσύνη συνεχίζει να εξελίσσεται, υπάρχει αυξανόμενο ενδιαφέρον για την εφαρμογή αυτών των τεχνολογιών σε δημιουργικούς τομείς, συμπεριλαμβανομένης της συγγραφής στίχων. Ακόμα και με αυτές τις εξελίξεις, τα σύγχρονα πολυτροπικά μοντέλα ήχου δεν έχουν εκπαιδευτεί επαρκώς σε εργασίες ανάκτησης μουσικής πληροφορίας, και ειδικά σε δημιουργικές εργασίες όπως η παραγωγή στίχων. Επιπλέον, μόνο ορισμένα Μεγάλα Γλωσσικά Μοντέλα έχει αποδειχθεί ότι εμφανίζουν την ικανότητα για λεπτομερή και συναισθηματικά φορτισμένη γραφή, γεγονός που υπογραμμίζει την ανάγκη για πιο εξελιγμένες προσεγγίσεις σε αυτόν τον τομέα. Στην παρούσα διπλωματική εργασία, διεξάγουμε μια ολοκληρωμένη αξιολόγηση τεσσάρων διαφορετικών προσεγγίσεων για την παραγωγή στίχων, ενσωματώνοντας σταδιακά διαφορετικές τροπικότητες. Ξεκινάμε με την παραδοσιακή παραγωγή στίχων από κείμενο σε κείμενο με τη χρήση σύγχρονων Μεγάλων Γλωσσικών Μοντέλων. Στη συνέχεια, διερευνούμε την παραγωγή κειμένου ενισχυμένου με ήχο μέσω δύο προσεγγίσεων: ενός μοντέλου Variational Autoencoder με αρχιτεκτονική που μοιάζει με Transformer και ενός μοντέλου που ευθυγραμμίζει τις αναπαραστάσεις μουσικής και κειμένου μεταξύ των μοντέλων Whisper και OpenOrca. Στη συνέχεια, υλοποιούμε μια διαδικασία δύο σταδίων με τη χρήση του SALMONN για την εξαγωγή μουσικών ετικετών και στη συνέχεια του Claude για την παραγωγή στίχων. Τέλος, προτείνουμε μια νέα πολυτροπική διάταξη που συνδυάζει το SALMONN για την περιγραφή της σκηνής της ταινίας, το Stable Diffusion για την οπτικοποίηση και το LLaVA για την τελική παραγωγή στίχων. Η αξιολόγησή μας, που βασίζεται τόσο σε μετρικές που βασίζονται σε LLM όσο και σε ανθρώπινη αξιολόγηση, αποκαλύπτει διάφορα βασικά ευρήματα. Πρώτον, τα instruction-tuned LLM επιδεικνύουν ισχυρές baseline επιδόσεις ακόμη και χωρίς περαιτέρω εκπαίδευση στον συγκεκριμένο τομέα. Δεύτερον, η προσθήκη της τροπικότητας ήχου μέσω της εξαγωγής μουσικών ετικετών ενισχύει σημαντικά τη συσχέτιση μεταξύ των παραγόμενων στίχων και της μουσικής. Τρίτον, η νέα μας προσέγγιση που ενσωματώνει οπτικές αναπαραστάσεις επιτυγχάνει την καλύτερη ισορροπία μεταξύ συνοχής των στίχων και της συσχέτισής τους με τη μουσική. Είναι ενδιαφέρον ότι, ενώ το few-shot prompting βελτίωσε τα σκορ ομοιότητας, παρουσίασε μειωμένη απόδοση στις αξιολογήσεις της ποιότητας των στίχων. Τα ευρήματα αυτά υποδηλώνουν ότι οι πολυτροπικές προσεγγίσεις μπορούν να βελτιώσουν την παραγωγή στίχων διατηρώντας παράλληλα τη δημιουργική έκφραση, ωστόσο υπάρχει μια λεπτή ισορροπία μεταξύ της καθοδηγούμενης παραγωγής και της δημιουργικής ελευθερίας. Αυτή η έρευνα συνεισφέρει νέες μεθοδολογίες σε εργασίες ανάκτησης μουσικής πληροφορίας και ανοίγει δρόμους για μελλοντική εξερεύνηση πολυτροπικών προσεγγίσεων σε δημιουργικές εφαρμογές τεχνητής νοημοσύνης. el
heal.abstract Music plays a fundamental role in human culture, serving as a universal language that transcends barriers and resonates deeply with people’s emotions and experiences. As artificial intelligence continues to advance, there is growing interest in applying these technologies to creative domains, including lyric generation. While Large Language Models (LLMs) have shown promise in creative writing tasks, the potential of multimodal approaches in lyric generation remains largely unexplored. In this diploma thesis, we conduct a comprehensive evaluation of four distinct approaches to lyric generation, progressively incorporating different modalities. We begin with traditional text-to-text lyric generation using state-of-the-art LLMs. We then explore audio-enhanced text generation through two approaches: a Variational Autoencoder model with Transformer-like architecture, and a model with a projection layer to align music and text representations between the Whisper and OpenOrca models. Following this, we implement a two-stage process using SALMONN for music tag extraction followed by Claude for lyric generation. Finally, we propose a novel multimodal pipeline combining SALMONN for movie scene description, Stable Diffusion for visualization, and LLaVA for final lyric generation. Our evaluation, based on both LLM-based metrics and human assessment, reveals several key findings. First, instruction-tuned LLMs demonstrate strong baseline performance even without domain-specific training. Second, the addition of audio modality through music tag extraction significantly enhances the correlation between generated lyrics and music. Third, our novel approach incorporating visual representations achieves the best balance between lyrical coherence and musical correlation. Interestingly, while few-shot prompting improved similarity metrics, it showed decreased performance in creative quality assessments. These findings suggest that thoughtfully integrated multimodal approaches can enhance lyric generation while maintaining creative expression, though there exists a delicate balance between guided generation and creative freedom. This research contributes new methodologies to music information retrieval tasks and opens avenues for future exploration in multimodal approaches to creative AI applications. en
heal.advisorName Ποταμιάνος, Αλέξανδρος el
heal.committeeMemberName Ροντογιάννης, Αθανάσιος el
heal.committeeMemberName Βουλόδημος, Αθανάσιος el
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής el
heal.academicPublisherID ntua
heal.numberOfPages 124 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Οι παρακάτω άδειες σχετίζονται με αυτό το τεκμήριο:

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής

Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα Εκτός από όπου ορίζεται κάτι διαφορετικό, αυτή η άδεια περιγράφεται ως Αναφορά Δημιουργού-Μη Εμπορική Χρήση 3.0 Ελλάδα