Search

KoLlava (TBD)

Korean Visul Instruction data generation

Llava 595k 이미지 - brief description
instruction만 번역해서 gpt에 넣고 답변 생성
or llava에 제공된 데이터 그대로 번역하여 사용

Train

visual encoder: KoClip
LLM
llama, vicuna는 한국어 데이터셋으로 충분히 학습되지 않았으므로 koalpaca나 kovicuna, polyglot-ko 사용?
혹은 공개된 데이터로 직접 fine-tune
Model