transformer 2

Transformer이란? ("Attention is all you need") + 벡터 흐름 하나하나 자세히 설명 및 논문 리뷰

트랜스포머라고 하면 위의 로봇영화가 가장 먼저 떠오를 것이다. 논문 저자가 모델 이름을 트랜스포머라고 지은 이유가 무엇일까? ​ 영어로 transform을 검색해보면 다음과 같고, transformer는 변형시키는 것으로써 변압기를 나타내는 말이기도 하다. 하지만 이런 생명력이 없는 시시한 의미보다는 저 두번째, 완전히 바꿔 놓는다는 의미가 눈에 띤다. ​ 실제로 Transformer는 NLP분야를 완전히 뒤흔들어 놓았다. ​ 목차 1. 기본적인 모델 이해 2. 자세한 논문 리뷰 참고한 사이트는 다음과 같고, 이미지 또한 이 사이트에서 가져왔다. https://jalammar.github.io/illustrated-transformer/ 가장 간단한 번역기 모델로 transformer를 이해를 해보자. ..

[5-4] Attention Mechanism(어텐션 메커니즘)이란?

Attention!(주의!) 기법이란 무엇일까? 단순히 말하자면, 다음 결과를 예측하는 작업에서 '이 정보 좀 봐주세요!'라는 의미를 뜻한다. 그리고 그 정보는 인풋으로 들어온 정보들을 현재의 작업에 맞게 정제하여 얻은 추가적인 정보이다. 그리고 이 정보를 참조하여 예측 작업의 '성능' 을 높일 수 있다. ​ ​ Attention Mechanism은 여러 종류들이 있지만 그 중 한 종류인 (Dot-product Attention)을 소개하겠다. 참고로 Dot-product는 내적이다. 해당 논문 ​ 가장 먼저 전반적인 구조를 한 페이지에 시각화해 보았다. 순서대로 따라가 보자. ​ 1. Q, K, V 사전 형태에 대한 이해 Q : 현재 시점 t의 디코더셀의 은닉 상태, K : 인코더 셀의 모든 은닉상태들..