이해가 되지 않았다.기본적인 Attention에 비해, Multi-Head Attention이 갖는 이점에 대해 물었을 때,가장 먼저 들은 건 "병렬성", 그리고 "다양한 관점에서의 문장 해석"이였다. 병렬성이라는 특징은 수긍이 되었다. Query, Key, Value 각각에 h개의 헤드를 동시에 수행함으로써 이루어지는 특징이기에 빠르게 이해가 되었다.문제는 "다양한 관점에서의 문장 해석"이였다.물론 직관적으로는 이해가 되었다."Query, Key, Value 각각에 여러 헤드가 들어가있으니 한 개만 들어간 것보다는 다각적으로 볼 수 있겠지" 라는 직관이 들었다. 허나 원리적으로 이해가 되지 않았다. Self-Attention을 예로 들 때,"I have a pencil" 이라는 입력이 있다고 하면, 임..