Simple and Controllable Music Generation
TL;DR
•
Conditional Music Generation
•
MusicGen
◦
(Simple) single-stage transformer LM
▪
이전 연구들과 달리, cascading several models 필요 없음
▪
hierarchically or upsampling
◦
(Controllable) conditioned on textual description or melodic features
•
Contribution
◦
simple and efficient model to generate high quality music at 32 kHz
1.
generate consistent music with a single-stage language model through an efficient codebook interleaving strategy
2.
텍스트와 멜로디를 condition으로 받아 생성하는 단일 모델 제시, 일관되고 condition에 충실함 입증
3.
광범위한 objective and human evaluations 제공
Motivation (or problem to solve)
•
음악 생성의 어려움
◦
modeling long range sequences
▪
스피치 : 16kHz
▪
음악 : full frequency spectrum / 44.1kHz or 48kHz
◦
여러 악기 사용 → complex structures
◦
사람들은 disharmony에 예민함
•
음악 제작자
◦
건반, 악기, 멜로디, 장르 등 다양한 방법으로 생성 과정을 제어할 수 있는 기능 필수적
•
기존 모델
◦
multi-streams : high cost
Proposed Method
•
MUSICGEN consists in an autoregressive transformer-based decoder
◦
The (language) model is over the quantized units from an EnCodec audio tokenizer
◦
EnCodec : SoundStream에서 최종 Conv1D 직전에 LSTM 추가
SoundStream
EnCodec
1. Audio tokenization
•
RVQ, EnCodec 사용 → RVQ에서 각 quantizer는 이전 quantizer가 남긴 양자화 오차를 인코딩하므로 서로 다른 코드북에 대한 양자화 값은 일반적으로 독립적이지 않으며 첫 번째 코드북이 가장 중요
2. Codebook interleaving patterns
•
EnCodec 모델에서 얻은 표현 Q의 주요 문제는 각 timestep에 대해 K개의 코드북이 있다(?)
3. Model conditioning
•
Text conditoning
1.
T5 encoder: 사전 학습된 텍스트 인코더
2.
FLAN-T5 : instruct-based 언어 모델
3.
CLAP : joint text-audio representation, provides better-quality generations
•
Melody conditioning
◦
음악에 대해 text보다 자연스러운 접근 방식은 다른 오디오 트랙의 멜로디 구조, 휘파람이나 흥얼거림
◦
conditioning on the raw chromagram often led to reconstructing the original sample, resulting in overfitting
◦
information bottleneck by choosing the dominant time-frequency bin in each time step
4. Model architecture
•
Experiments
CC3M caption
•
olympic athlete is seen during the men 's handball preliminary group b match
•
tiger in front of wild mountain
•
a_man_walks_alone_on_a_dock_in_a_mountain_lake
•
3d_vector_deluxe_alphabet_of_randomly_rotated_thin_golden_symbols