검색
검색
공개 노트 검색
회원가입로그인

마이크로소프트 LongNet - 10억개의 토큰 처리가 가능한 LLM

롱넷 (LongNet)

ChatGPT가 4096 토큰의 context window를 가지고 있는 반면 LongNet은 10억개의 토큰을 처리할 수 있다.

롱넷은 이를 위해 커스텀화한 attention 메커니즘을 사용하는데 이를 dilated attention (확장된 집중) 이라고 부른다. 이는 더 멀리 떨어져 있는 두 개의 토큰이면 집중을 지수적으로 떨어트리는 방법을 취하고 있다.

논문으로 발표된 '개념'이며 아직 검증이 더 필요하다. 출처 : https://arxiv.org/pdf/2307.02486.pdf

만약 이게 가능해 진다면 거대한 규모의 데이터를 한 번에 처리하고, 문맥을 고려한 context learning 이 가능해질 것 같다.

조회수 : 486
공유하기
카카오로 공유하기
페이스북 공유하기
트위터로 공유하기
url 복사하기