한국인공지능학회 5

Self-supervised learning of audio and speech representation [1/4] ( KAIST 정준선 교수님 ) / 음성 인식이란?

제가 지금까지 군생활을 하면서 가장 잘했다고 생각하는 것은 데일 카네기의 인간관계론이라는 책을 읽은 것입니다. 사람이 무엇을 원하는지 확실히 알게 되었기 때문입니다. ​ 사람은 모두 인정받기를 "갈망" 합니다. 좋은 것으로는 부족합니다. "갈망" 합니다. ​ 나의 존재가 인정받기를 원해서 우리는 자신을 다양한 방식으로 표현합니다. 그 중에서 가장 쉽고 효과적인 수단은 "말하기" 입니다. 그래서 사람들은 자신의 이야기를 "들어주는" 사람을 좋아합니다. 나의 존재가 빛날 수 있도록 나를 하늘 높이 들어주는 사람을 좋아하는 감정은 자연스러운 것이니까요. ​ 저의 목표는 친구같은 인공지능을 만드는 것이라고 말해왔습니다. 하지만, 정확히 말하자면 진심을 다해 "들어주는" 인공지능이라는 생각이 듭니다. ​ 이번 포..

Recent trends of text-to-image translation models [4/4] ( UNIST 유재준 교수님 ) / 이미지 생성모델의 역사 2020-2022

| From 2021 to 2022 2021 2021 Ramesh et al., “Zero-Shot Text-to-Image Generation (DALL-E),” ICML’21 2021년 1월 5일. 엄청나게 큰 모델과, 엄청나게 큰 Data. 거기에다가 이 둘을 잘 처리할 수 있는 엄청나게 좋은 연산 컴퓨터가 있다면 겁나게 좋은 성능의 이미지 생성 모델을 얻을 수 있다는 것을 발표했다. ( 사실 그 당시 가장 좋은 성능을 뽑아내는 V100 GPU를 가지고도 DALL-E 모델 한개 조차 들어가지 못할 정도로 큰 모델을 사용하였다. 이를 처리하기 위한 다양한 분산 처리 기술들을 활용하였다.(여러개의 GPU에 따로따로 분산학습 시킨다음 합치는 방식) ) ​ ​ DALL-E는 ​ 12B(120억)개의 par..

Recent trends of text-to-image translation models [3/4] ( UNIST 유재준 교수님 ) / 이미지 생성모델의 역사 2016-2020

| From 2016 to 2020 ​ 이제 datasets까지 다뤄보았으니 Text-to-Image Synthesis가 시작된 2016년으로 거슬러 올라가본다. 2016 2016 Reed et al.,“Generative Adversarial Text to Image Synthesis,” ICML’16 지금 LG에서 AI 연구를 하고 계시는 이홍락 교수님이 2016년 5월에 발표하신 Generative Adversarial Text to Image Synthesis는 처음으로 Text로 이미지 생성을 control하려는 시도를 한다. ​ 2014년에 GAN이 등장하고, 그 해 말 cGAN이 나옴으로 인해 conditional(이전 사건에 의존)한 방법을 통한 의도된 이미지 생성 시도가 이뤄지고 나서 ​..

Recent trends of text-to-image translation models [2/4] ( UNIST 유재준 교수님 ) / 학습 데이터

앞선 포스트를 통해 아래와 같은 내용을 정리했다. ​ 이미지 생성 모델이 왜 요즘 핫한가 현재 이미지 생성 모델이 좋은 성능을 냄에도 불구하고 부족한 점 이런 부족한 점을 채우기 위해 모델을 controllable하게 만들 필요가 있음 이제 그 방법론 중에 Conditional Image Synthesis의 Text control에 대해 집중적으로 다뤄 보고자 한다. text-to-image (T2I) synthesis ​ 이 분야는 어떤 datasets을 다룰까? ​ 대표적으로 쓰이는 것이 아래 3가지 정도 된다. ​ ​ | Oxford-102 Flowers(Nilsback& Zisserman, 2008) | CUB-200 Birds(Wah et al., 2011) 10k개 정도의 이미지가 존재하는 상..

Recent trends of text-to-image translation models [1/4] ( UNIST 유재준 교수님 ) / 텍스트-이미지 생성 모델 개요

일정에 적힌 세션 내용은 위의 제목과 같았지만 실제로 교수님께서는 Controllable Image Synthesis라는 주제로 발표를 하셨습니다. ​ 목차는 다음과 같습니다. Controllable Image Synthesis의 개념 및 역사 Controllable Image Synthesis의 지향점 ​​ 옛날부터 Image를 잘 다루는(manipulate) 방식에 대해서는 꾸준한 연구가 있어왔다. ​ 하지만 2014년 GAN이 등장하고 이후 2016년 입력하는 text에 조건부적인 이미지 생성 모델을 다루기 시작함으로써 CV 분야는 의도된 이미지 생성에 있어 혁신을 이루었다. 그렇다면 생성 모델이 무엇인가? 주어진 데이터에 대해 그 데이터 분포를 얻었을 때 확률 모델을 사용해서 그 분포를 근사(ap..