트랜스포머 설명 유튜브 3Blue1Brown

변압기에 대한 주의, 시각적으로 설명 | 6장, 딥러닝

트랜스포머는 대형 언어 모델 안에 있는 주요 기술 중 하나로, 2017년 Attention is All You Need 논문에서 처음 소개되었다.
트랜스포머에서 가장 중요한 아이디어는 임베딩으로 각 토큰(단어 등)을 연관시켜서 의미를 나타낸다는 것이다.
트랜스포머의 목표는 각 임베딩이 개별 단어뿐만 아니라 더 풍부한 문맥과 의미를 내포하도록 점진적으로 조절하는 것이다.
어텐션 메커니즘은 트랜스포머에서 키 역할을 담당하는 중요한 부분이며, 주어진 단어와 그 문맥에서의 의미를 파악하여 임베딩을 보완한다.
어텐션 메커니즘은 각 토큰에 대해 쿼리와 키를 계산하여 두 벡터의 내적을 통해 관련성을 파악하고, 이를 확률 분포로 정규화하여 임베딩을 보완한다.
트랜스포머는 문맥을 고려한 자연어 처리를 위한 중요한 기술로 여겨진다.
주요 내용: 어텐션 메커니즘 기초, 임베딩 업데이트 방법
어텐션 메커니즘의 목적: 단어 간 상관관계를 파악하여 context를 업데이트하고 더 많은 문맥을 포함하는 embeddings를 만들기 위함
각 단어 간 상관관계를 파악하기 위해 key, query, value 매트릭스 사용
매트릭스 곱셈을 통해 value vector 생성 후, 각각의 key와의 상관관계에 따라 값을 곱하고 rescale하여 축적
이를 통해 context-sensitive한 embeddings 업데이트 가능
self-attention head와 multi-headed attention의 개념 소개
각 attention head는 key, query, value 매트릭스를 각각 가지며, GPT-3은 96개의 attention head를 사용함
전체 transformer 모델에는 58 billion 개의 파라미터가 존재하며, 어텐션 메커니즘이 성공하게 된 이유 중 하나는 병렬 처리가 가능하다는 점
"Art of the Problem"에서 대형 언어 모델의 역사에 관한 매우 좋은 동영상을 소개합니다.

3Blue1Brown 의 유튜브 동영상.