Search
🚊

추가 데이터셋 구축

현재 학습한 데이터셋은 영어를 한글로 번역한 데이터셋
한글 특성에 맞는 데이터셋이 필요, 번역하지 않은 상태의 데이터셋이 필요하다.
필요한 데이터셋의 특징
사진이 있고 해당 사진을 설명하는 텍스트가 필요함
가능한 방법들?
블로그
이미지가 있을 때 해당 이미지와 관련있을지 의문
지식인
→ 이미지가 없기 때문에 쉽지 않음
쇼핑몰
쿠팡
네이버
→ 제품에 대한 상세 설명을 이미지 형태로 나타내기 때문에 텍스트를 크롤링하기 매우 어렵다.
→ OCR을 통해서 크롤링 가능?
cafe24
→ cafe24에서 호스팅하는 쇼핑몰의 경우 각 상품 상세 설명을 나타내는 id가 있음
인스타그램
특정 태그로만 크롤링 한다. (ex. 맛집, 장소)
오픈 데이터셋
→ 한글로 된 데이터셋이 있는가..?
오픈 데이터셋
laion에서 만든 multi-modal 데이터셋
카카오에서 만든 coyo 데이터셋
Tourist Spot
예시
llava 데이터셋 작업
GPT 4에서 한번 이미지 캡션을 뽑아서 데이터셋을 만듦
ToDo
필터링 작업
한글 데이터셋 추가 조사
이미지 캡션 작업
GPT로 번역했을 때 성능 괜찮은지?