HEAL DSpace

Harnessing cross attention control for instruction-based autoregressive audio editing

Αποθετήριο DSpace/Manakin

Εμφάνιση απλής εγγραφής

dc.contributor.author Sioros, Vassileios en
dc.contributor.author Σιώρος, Βασίλειος el
dc.date.accessioned 2025-01-09T10:01:26Z
dc.date.available 2025-01-09T10:01:26Z
dc.identifier.uri https://dspace.lib.ntua.gr/xmlui/handle/123456789/60675
dc.identifier.uri http://dx.doi.org/10.26240/heal.ntua.28371
dc.description Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" el
dc.rights Default License
dc.subject Audio en
dc.subject Editing en
dc.subject Autoregressive en
dc.subject Attention en
dc.subject Prompt en
dc.subject Ήχος el
dc.subject Επεξεργασία el
dc.subject Αυτοπαλινδρομικό el
dc.subject Προσοχή el
dc.subject Κείμενο el
dc.title Harnessing cross attention control for instruction-based autoregressive audio editing en
heal.type masterThesis
heal.classification Prompt-guided audio manipulation en
heal.language el
heal.language en
heal.access free
heal.recordProvider ntua el
heal.publicationDate 2024-07-19
heal.abstract Στην παρούσα μελέτη, ερευνούμε την αξιοποίηση του ελέγχου διασταυρούμενης προσοχής για αποτελεσματική επεξεργασία ήχου χρησιμοποιώντας αυτοπαλινδρομικά μοντέλα. Εμπνευσμένοι από μεθοδολογίες επεξεργασίας εικόνας, αναπτύσσουμε μια προσέγγιση τύπου \textlatin{Prompt-to-Prompt} που καθοδηγεί τις επεμβάσεις μέσω μηχανισμών διασταυρούμενης και αυτοπροσοχής. Ενσωματώνοντας μια στρατηγική διάχυσης, επηρεασμένη από το \textlatin{Auffusion}, επεκτείνουμε τη λειτουργικότητα του μοντέλου για να υποστηρίξει την επεξεργασία βελτίωσης καθοδηγούμενη από προτροπές. Επιπλέον, εισάγουμε μια εναλλακτική προσέγγιση ενσωματώνοντας το \textlatin{MUSICGEN}, ένα προ-εκπαιδευμένο παγωμένο αυτοπαλινδρομικό μοντέλο, και προτείνουμε τρεις μηχανισμούς επεξεργασίας, βασισμένους στην Αντικατάσταση, την Ανακατανομή βαρών και τη Βελτίωση των σκορ προσοχής. Χρησιμοποιούμε ευρέως χρησιμοποιούμενες μετρικές αξιολόγησης ειδικές για τη μουσική και μια μελέτη με ανθρώπους, για να αξιολογήσουμε την ελεγχόμενη μεταβλητότητα στον χρόνο, την τήρηση των γενικών κειμενικών οδηγιών και τον συνολικό ρεαλισμό του ήχου. Οι αυτόματες και οι ανθρώπινες αξιολογήσεις υποδεικνύουν ότι ο προτεινόμενος συνδυασμός καθοδήγησης τύπου prompt-to-prompt με αυτοπαλινδρομικά μοντέλα δημιουργίας υπερέχει σημαντικά σε σχέση με την βασική στρατηγική διάχυσης όσον αφορά τη μελωδία, τη δυναμική και τον ρυθμό του παραγόμενου ήχου. el
heal.abstract In this study, we investigate leveraging cross-attention control for efficient audio editing using auto-regressive models. Inspired by image editing methodologies, we develop a Prompt-to-Prompt-like approach that guides edits through cross and self-attention mechanisms. Integrating a diffusion-based strategy, influenced by Auffusion, we extend the model's functionality to support prompt-guided refinement editing. Additionally, we introduce an alternative approach by incorporating MUSICGEN, a pre-trained frozen auto-regressive model, and propose three editing mechanisms, based on Replacement, Reweighting, and Refinement of the attention scores. We employ commonly-used music-specific evaluation metrics and a human study, to gauge time-varying controllability, adherence to global text cues, and overall audio realism. The automatic and human evaluations indicate that the proposed combination of prompt-to-prompt guidance with autoregressive generation models significantly outperforms the diffusion-based baseline in terms of melody, dynamics, and tempo of the generated audio. en
heal.advisorName Potamianos, Alexandros en
heal.committeeMemberName Rontogiannis, Athanasios en
heal.committeeMemberName Tzafestas, Constantinos en
heal.academicPublisher Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών el
heal.academicPublisherID ntua
heal.numberOfPages 71 σ. el
heal.fullTextAvailability false


Αρχεία σε αυτό το τεκμήριο

Αυτό το τεκμήριο εμφανίζεται στην ακόλουθη συλλογή(ές)

Εμφάνιση απλής εγγραφής