Harnessing cross attention control for instruction-based autoregressive audio editing

Sioros, Vassileios; Σιώρος, Βασίλειος

dc.contributor.author	Sioros, Vassileios	en
dc.contributor.author	Σιώρος, Βασίλειος	el
dc.date.accessioned	2025-01-09T10:01:26Z
dc.date.available	2025-01-09T10:01:26Z
dc.identifier.uri	https://dspace.lib.ntua.gr/xmlui/handle/123456789/60675
dc.identifier.uri	http://dx.doi.org/10.26240/heal.ntua.28371
dc.description	Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση"	el
dc.rights	Default License
dc.subject	Audio	en
dc.subject	Editing	en
dc.subject	Autoregressive	en
dc.subject	Attention	en
dc.subject	Prompt	en
dc.subject	Ήχος	el
dc.subject	Επεξεργασία	el
dc.subject	Αυτοπαλινδρομικό	el
dc.subject	Προσοχή	el
dc.subject	Κείμενο	el
dc.title	Harnessing cross attention control for instruction-based autoregressive audio editing	en
heal.type	masterThesis
heal.classification	Prompt-guided audio manipulation	en
heal.language	el
heal.language	en
heal.access	free
heal.recordProvider	ntua	el
heal.publicationDate	2024-07-19
heal.abstract	Στην παρούσα μελέτη, ερευνούμε την αξιοποίηση του ελέγχου διασταυρούμενης προσοχής για αποτελεσματική επεξεργασία ήχου χρησιμοποιώντας αυτοπαλινδρομικά μοντέλα. Εμπνευσμένοι από μεθοδολογίες επεξεργασίας εικόνας, αναπτύσσουμε μια προσέγγιση τύπου \textlatin{Prompt-to-Prompt} που καθοδηγεί τις επεμβάσεις μέσω μηχανισμών διασταυρούμενης και αυτοπροσοχής. Ενσωματώνοντας μια στρατηγική διάχυσης, επηρεασμένη από το \textlatin{Auffusion}, επεκτείνουμε τη λειτουργικότητα του μοντέλου για να υποστηρίξει την επεξεργασία βελτίωσης καθοδηγούμενη από προτροπές. Επιπλέον, εισάγουμε μια εναλλακτική προσέγγιση ενσωματώνοντας το \textlatin{MUSICGEN}, ένα προ-εκπαιδευμένο παγωμένο αυτοπαλινδρομικό μοντέλο, και προτείνουμε τρεις μηχανισμούς επεξεργασίας, βασισμένους στην Αντικατάσταση, την Ανακατανομή βαρών και τη Βελτίωση των σκορ προσοχής. Χρησιμοποιούμε ευρέως χρησιμοποιούμενες μετρικές αξιολόγησης ειδικές για τη μουσική και μια μελέτη με ανθρώπους, για να αξιολογήσουμε την ελεγχόμενη μεταβλητότητα στον χρόνο, την τήρηση των γενικών κειμενικών οδηγιών και τον συνολικό ρεαλισμό του ήχου. Οι αυτόματες και οι ανθρώπινες αξιολογήσεις υποδεικνύουν ότι ο προτεινόμενος συνδυασμός καθοδήγησης τύπου prompt-to-prompt με αυτοπαλινδρομικά μοντέλα δημιουργίας υπερέχει σημαντικά σε σχέση με την βασική στρατηγική διάχυσης όσον αφορά τη μελωδία, τη δυναμική και τον ρυθμό του παραγόμενου ήχου.	el
heal.abstract	In this study, we investigate leveraging cross-attention control for efficient audio editing using auto-regressive models. Inspired by image editing methodologies, we develop a Prompt-to-Prompt-like approach that guides edits through cross and self-attention mechanisms. Integrating a diffusion-based strategy, influenced by Auffusion, we extend the model's functionality to support prompt-guided refinement editing. Additionally, we introduce an alternative approach by incorporating MUSICGEN, a pre-trained frozen auto-regressive model, and propose three editing mechanisms, based on Replacement, Reweighting, and Refinement of the attention scores. We employ commonly-used music-specific evaluation metrics and a human study, to gauge time-varying controllability, adherence to global text cues, and overall audio realism. The automatic and human evaluations indicate that the proposed combination of prompt-to-prompt guidance with autoregressive generation models significantly outperforms the diffusion-based baseline in terms of melody, dynamics, and tempo of the generated audio.	en
heal.advisorName	Potamianos, Alexandros	en
heal.committeeMemberName	Rontogiannis, Athanasios	en
heal.committeeMemberName	Tzafestas, Constantinos	en
heal.academicPublisher	Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
heal.academicPublisherID	ntua
heal.numberOfPages	71 σ.	el
heal.fullTextAvailability	false