마이크로소프트 LongNet - 10억개의 토큰 처리가 가능한 LLM
롱넷 (LongNet)
ChatGPT가 4096 토큰의 context window를 가지고 있는 반면 LongNet은 10억개의 토큰을 처리할 수 있다.
롱넷은 이를 위해 커스텀화한 attention 메커니즘을 사용하는데 이를 dilated attention (확장된 집중) 이라고 부른다. 이는 더 멀리 떨어져 있는 두 개의 토큰이면 집중을 지수적으로 떨어트리는 방법을 취하고 있다.
논문으로 발표된 '개념'이며 아직 검증이 더 필요하다. 출처 : https://arxiv.org/pdf/2307.02486.pdf
만약 이게 가능해 진다면 거대한 규모의 데이터를 한 번에 처리하고, 문맥을 고려한 context learning 이 가능해질 것 같다.
공유하기
조회수 : 590