•
현재 학습한 데이터셋은 영어를 한글로 번역한 데이터셋
•
한글 특성에 맞는 데이터셋이 필요, 번역하지 않은 상태의 데이터셋이 필요하다.
•
필요한 데이터셋의 특징
◦
사진이 있고 해당 사진을 설명하는 텍스트가 필요함
•
가능한 방법들?
◦
블로그
▪
이미지가 있을 때 해당 이미지와 관련있을지 의문
◦
지식인
→ 이미지가 없기 때문에 쉽지 않음
◦
쇼핑몰
▪
쿠팡
▪
네이버
→ 제품에 대한 상세 설명을 이미지 형태로 나타내기 때문에 텍스트를 크롤링하기 매우 어렵다.
→ OCR을 통해서 크롤링 가능?
▪
cafe24
→ cafe24에서 호스팅하는 쇼핑몰의 경우 각 상품 상세 설명을 나타내는 id가 있음
◦
인스타그램
▪
특정 태그로만 크롤링 한다. (ex. 맛집, 장소)
◦
오픈 데이터셋
→ 한글로 된 데이터셋이 있는가..?
•
오픈 데이터셋
◦
laion에서 만든 multi-modal 데이터셋
◦
카카오에서 만든 coyo 데이터셋
◦
•
llava 데이터셋 작업
◦
GPT 4에서 한번 이미지 캡션을 뽑아서 데이터셋을 만듦
ToDo
•
필터링 작업
•
한글 데이터셋 추가 조사
•
이미지 캡션 작업
•
GPT로 번역했을 때 성능 괜찮은지?