검색
검색
공개 노트 검색
회원가입로그인

트랜스포머 설명 유튜브 3Blue1Brown

변압기에 대한 주의, 시각적으로 설명 | 6장, 딥러닝

  • 트랜스포머는 대형 언어 모델 안에 있는 주요 기술 중 하나로, 2017년 Attention is All You Need 논문에서 처음 소개되었다.

  • 트랜스포머에서 가장 중요한 아이디어는 임베딩으로 각 토큰(단어 등)을 연관시켜서 의미를 나타낸다는 것이다.

  • 트랜스포머의 목표는 각 임베딩이 개별 단어뿐만 아니라 더 풍부한 문맥과 의미를 내포하도록 점진적으로 조절하는 것이다.

  • 어텐션 메커니즘은 트랜스포머에서 키 역할을 담당하는 중요한 부분이며, 주어진 단어와 그 문맥에서의 의미를 파악하여 임베딩을 보완한다.

  • 어텐션 메커니즘은 각 토큰에 대해 쿼리와 키를 계산하여 두 벡터의 내적을 통해 관련성을 파악하고, 이를 확률 분포로 정규화하여 임베딩을 보완한다.

  • 트랜스포머는 문맥을 고려한 자연어 처리를 위한 중요한 기술로 여겨진다.

  • 주요 내용: 어텐션 메커니즘 기초, 임베딩 업데이트 방법

  • 어텐션 메커니즘의 목적: 단어 간 상관관계를 파악하여 context를 업데이트하고 더 많은 문맥을 포함하는 embeddings를 만들기 위함

  • 각 단어 간 상관관계를 파악하기 위해 key, query, value 매트릭스 사용

  • 매트릭스 곱셈을 통해 value vector 생성 후, 각각의 key와의 상관관계에 따라 값을 곱하고 rescale하여 축적

  • 이를 통해 context-sensitive한 embeddings 업데이트 가능

  • self-attention head와 multi-headed attention의 개념 소개

  • 각 attention head는 key, query, value 매트릭스를 각각 가지며, GPT-3은 96개의 attention head를 사용함

  • 전체 transformer 모델에는 58 billion 개의 파라미터가 존재하며, 어텐션 메커니즘이 성공하게 된 이유 중 하나는 병렬 처리가 가능하다는 점

  • "Art of the Problem"에서 대형 언어 모델의 역사에 관한 매우 좋은 동영상을 소개합니다.

3Blue1Brown 의 유튜브 동영상.

조회수 : 94
heart
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기
T
페이지 기반 대답
AI Chat