한국인공지능학회

Recent trends of text-to-image translation models [2/4] ( UNIST 유재준 교수님 ) / 학습 데이터

Suhd 2023. 1. 22. 22:33

앞선 포스트를 통해 아래와 같은 내용을 정리했다.

  • 이미지 생성 모델이 왜 요즘 핫한가
  • 현재 이미지 생성 모델이 좋은 성능을 냄에도 불구하고 부족한 점
  • 이런 부족한 점을 채우기 위해 모델을 controllable하게 만들 필요가 있음

 


이제 그 방법론 중에

Conditional Image Synthesis

Text control에 대해 집중적으로 다뤄 보고자 한다.


 

text-to-image (T2I) synthesis

이 분야는 어떤 datasets을 다룰까?

대표적으로 쓰이는 것이 아래 3가지 정도 된다.

| Oxford-102 Flowers(Nilsback& Zisserman, 2008) | CUB-200 Birds(Wah et al., 2011)

10k개 정도의 이미지가 존재하는 상대적으로 작은 datasets이다.

| COCO(Lin et al., 2014)

최근에 자주 사용되고 있는 datasets이다.

이전과 비교해 상대적으로 큰 123k 개의 이미지를 가지고 있으며

5명의 사람들이 각 이미지마다 caption을 달았는데

쉬운 문장보다는 복잡한 문장을 달려고 했다고 한다.

이 이미지 dataset은

물체 감지,분류(Object Detection,Segmentation)을 위한 Object segmentation 라벨도 제공하고

이미지 생성을 위해 필요한 caption 라벨 또한 제공한다.

 

 

학습 데이터 셋을 확인했으니

다음 포스트로 2016년 부터 2020년 까지

이미지 생성 모델의 흐름과 핵심 아이디어들에 대해 다뤄보겠다.