학습 기록/논문 리뷰
[논문 리뷰] Attention is All You Need
Attention is All You Need Transformer 구조를 처음 소개한 논문이다. 향후에 BERT, GPT등 Transformer 구조를 활용한 새로운 SOTA 모델들이 나오기 때문에 기본이 되는 Transformer에 대한 이해가 필요하다. Abstract * 초록색 표시 - 과거 모델 관련 정보 (e.g. 과거 모델의 한계) * 노란색 표시 - 논문에서 소개하는 모델 관련 정보 (e.g. 과거 모델의 어떤 한계를 어떻게 극복했는가) 기존에 우세한 시퀀스 변환 모델들은 복잡한 recurrent 또는 인코더와 디코더를 포함한 Convolution neural network를 활용했었다. 이 모델들은 또한 인코더와 디코더를 Attention 매커니즘을 통해 연결했다고 한다. 이와 다르게 T..