Korean Visul Instruction data generation
•
Llava 595k 이미지 - brief description
•
instruction만 번역해서 gpt에 넣고 답변 생성
•
or llava에 제공된 데이터 그대로 번역하여 사용
Train
•
visual encoder: KoClip
•
LLM
◦
llama, vicuna는 한국어 데이터셋으로 충분히 학습되지 않았으므로 koalpaca나 kovicuna, polyglot-ko 사용?
◦
Model