Search

MusicGen

Simple and Controllable Music Generation

TL;DR

Conditional Music Generation
MusicGen
(Simple) single-stage transformer LM
이전 연구들과 달리, cascading several models 필요 없음
hierarchically or upsampling
(Controllable) conditioned on textual description or melodic features
Contribution
simple and efficient model to generate high quality music at 32 kHz
1.
generate consistent music with a single-stage language model through an efficient codebook interleaving strategy
2.
텍스트와 멜로디를 condition으로 받아 생성하는 단일 모델 제시, 일관되고 condition에 충실함 입증
3.
광범위한 objective and human evaluations 제공

Motivation (or problem to solve)

음악 생성의 어려움
modeling long range sequences
스피치 : 16kHz
음악 : full frequency spectrum / 44.1kHz or 48kHz
여러 악기 사용 → complex structures
사람들은 disharmony에 예민함
음악 제작자
건반, 악기, 멜로디, 장르 등 다양한 방법으로 생성 과정을 제어할 수 있는 기능 필수적
기존 모델
multi-streams : high cost

Proposed Method

MUSICGEN consists in an autoregressive transformer-based decoder
The (language) model is over the quantized units from an EnCodec audio tokenizer
EnCodec : SoundStream에서 최종 Conv1D 직전에 LSTM 추가
SoundStream
EnCodec

1. Audio tokenization

RVQ, EnCodec 사용 → RVQ에서 각 quantizer는 이전 quantizer가 남긴 양자화 오차를 인코딩하므로 서로 다른 코드북에 대한 양자화 값은 일반적으로 독립적이지 않으며 첫 번째 코드북이 가장 중요

2. Codebook interleaving patterns

EnCodec 모델에서 얻은 표현 Q의 주요 문제는 각 timestep에 대해 K개의 코드북이 있다(?)

3. Model conditioning

Text conditoning
1.
T5 encoder: 사전 학습된 텍스트 인코더
2.
FLAN-T5 : instruct-based 언어 모델
3.
CLAP : joint text-audio representation, provides better-quality generations
Melody conditioning
음악에 대해 text보다 자연스러운 접근 방식은 다른 오디오 트랙의 멜로디 구조, 휘파람이나 흥얼거림
conditioning on the raw chromagram often led to reconstructing the original sample, resulting in overfitting
information bottleneck by choosing the dominant time-frequency bin in each time step

4. Model architecture

Experiments

CC3M caption

olympic athlete is seen during the men 's handball preliminary group b match
tiger in front of wild mountain
a_man_walks_alone_on_a_dock_in_a_mountain_lake
3d_vector_deluxe_alphabet_of_randomly_rotated_thin_golden_symbols