dc.contributor.author |
Sioros, Vassileios
|
en |
dc.contributor.author |
Σιώρος, Βασίλειος
|
el |
dc.date.accessioned |
2025-01-09T10:01:26Z |
|
dc.date.available |
2025-01-09T10:01:26Z |
|
dc.identifier.uri |
https://dspace.lib.ntua.gr/xmlui/handle/123456789/60675 |
|
dc.identifier.uri |
http://dx.doi.org/10.26240/heal.ntua.28371 |
|
dc.description |
Εθνικό Μετσόβιο Πολυτεχνείο--Μεταπτυχιακή Εργασία. Διεπιστημονικό-Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών (Δ.Π.Μ.Σ.) "Επιστήμη Δεδομένων και Μηχανική Μάθηση" |
el |
dc.rights |
Default License |
|
dc.subject |
Audio |
en |
dc.subject |
Editing |
en |
dc.subject |
Autoregressive |
en |
dc.subject |
Attention |
en |
dc.subject |
Prompt |
en |
dc.subject |
Ήχος |
el |
dc.subject |
Επεξεργασία |
el |
dc.subject |
Αυτοπαλινδρομικό |
el |
dc.subject |
Προσοχή |
el |
dc.subject |
Κείμενο |
el |
dc.title |
Harnessing cross attention control for instruction-based autoregressive audio editing |
en |
heal.type |
masterThesis |
|
heal.classification |
Prompt-guided audio manipulation |
en |
heal.language |
el |
|
heal.language |
en |
|
heal.access |
free |
|
heal.recordProvider |
ntua |
el |
heal.publicationDate |
2024-07-19 |
|
heal.abstract |
Στην παρούσα μελέτη, ερευνούμε την αξιοποίηση του ελέγχου διασταυρούμενης προσοχής για αποτελεσματική επεξεργασία ήχου χρησιμοποιώντας αυτοπαλινδρομικά μοντέλα. Εμπνευσμένοι από μεθοδολογίες επεξεργασίας εικόνας, αναπτύσσουμε μια προσέγγιση τύπου \textlatin{Prompt-to-Prompt} που καθοδηγεί τις επεμβάσεις μέσω μηχανισμών διασταυρούμενης και αυτοπροσοχής. Ενσωματώνοντας μια στρατηγική διάχυσης, επηρεασμένη από το \textlatin{Auffusion}, επεκτείνουμε τη λειτουργικότητα του μοντέλου για να υποστηρίξει την επεξεργασία βελτίωσης καθοδηγούμενη από προτροπές. Επιπλέον, εισάγουμε μια εναλλακτική προσέγγιση ενσωματώνοντας το \textlatin{MUSICGEN}, ένα προ-εκπαιδευμένο παγωμένο αυτοπαλινδρομικό μοντέλο, και προτείνουμε τρεις μηχανισμούς επεξεργασίας, βασισμένους στην Αντικατάσταση, την Ανακατανομή βαρών και τη Βελτίωση των σκορ προσοχής. Χρησιμοποιούμε ευρέως χρησιμοποιούμενες μετρικές αξιολόγησης ειδικές για τη μουσική και μια μελέτη με ανθρώπους, για να αξιολογήσουμε την ελεγχόμενη μεταβλητότητα στον χρόνο, την τήρηση των γενικών κειμενικών οδηγιών και τον συνολικό ρεαλισμό του ήχου. Οι αυτόματες και οι ανθρώπινες αξιολογήσεις υποδεικνύουν ότι ο προτεινόμενος συνδυασμός καθοδήγησης τύπου prompt-to-prompt με αυτοπαλινδρομικά μοντέλα δημιουργίας υπερέχει σημαντικά σε σχέση με την βασική στρατηγική διάχυσης όσον αφορά τη μελωδία, τη δυναμική και τον ρυθμό του παραγόμενου ήχου. |
el |
heal.abstract |
In this study, we investigate leveraging cross-attention control for efficient audio editing using auto-regressive models. Inspired by image editing methodologies, we develop a Prompt-to-Prompt-like approach that guides edits through cross and self-attention mechanisms. Integrating a diffusion-based strategy, influenced by Auffusion, we extend the model's functionality to support prompt-guided refinement editing. Additionally, we introduce an alternative approach by incorporating MUSICGEN, a pre-trained frozen auto-regressive model, and propose three editing mechanisms, based on Replacement, Reweighting, and Refinement of the attention scores. We employ commonly-used music-specific evaluation metrics and a human study, to gauge time-varying controllability, adherence to global text cues, and overall audio realism. The automatic and human evaluations indicate that the proposed combination of prompt-to-prompt guidance with autoregressive generation models significantly outperforms the diffusion-based baseline in terms of melody, dynamics, and tempo of the generated audio. |
en |
heal.advisorName |
Potamianos, Alexandros |
en |
heal.committeeMemberName |
Rontogiannis, Athanasios |
en |
heal.committeeMemberName |
Tzafestas, Constantinos |
en |
heal.academicPublisher |
Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών |
el |
heal.academicPublisherID |
ntua |
|
heal.numberOfPages |
71 σ. |
el |
heal.fullTextAvailability |
false |
|