DALL-E 2

Recent trends of text-to-image translation models [4/4] ( UNIST 유재준 교수님 ) / 이미지 생성모델의 역사 2020-2022

| From 2021 to 2022 2021 2021 Ramesh et al., “Zero-Shot Text-to-Image Generation (DALL-E),” ICML’21 2021년 1월 5일. 엄청나게 큰 모델과, 엄청나게 큰 Data. 거기에다가 이 둘을 잘 처리할 수 있는 엄청나게 좋은 연산 컴퓨터가 있다면 겁나게 좋은 성능의 이미지 생성 모델을 얻을 수 있다는 것을 발표했다. ( 사실 그 당시 가장 좋은 성능을 뽑아내는 V100 GPU를 가지고도 DALL-E 모델 한개 조차 들어가지 못할 정도로 큰 모델을 사용하였다. 이를 처리하기 위한 다양한 분산 처리 기술들을 활용하였다.(여러개의 GPU에 따로따로 분산학습 시킨다음 합치는 방식) ) ​ ​ DALL-E는 ​ 12B(120억)개의 par..

Recent trends of text-to-image translation models [3/4] ( UNIST 유재준 교수님 ) / 이미지 생성모델의 역사 2016-2020

| From 2016 to 2020 ​ 이제 datasets까지 다뤄보았으니 Text-to-Image Synthesis가 시작된 2016년으로 거슬러 올라가본다. 2016 2016 Reed et al.,“Generative Adversarial Text to Image Synthesis,” ICML’16 지금 LG에서 AI 연구를 하고 계시는 이홍락 교수님이 2016년 5월에 발표하신 Generative Adversarial Text to Image Synthesis는 처음으로 Text로 이미지 생성을 control하려는 시도를 한다. ​ 2014년에 GAN이 등장하고, 그 해 말 cGAN이 나옴으로 인해 conditional(이전 사건에 의존)한 방법을 통한 의도된 이미지 생성 시도가 이뤄지고 나서 ​..