메타의 멀티 토큰 예측 아키텍처

Better & Faster Large Language Models via Multi-token Prediction

메타와 여러 연구기관이 대형언어모델(LLM)의 성능과 속도를 개선하기 위한 '멀티 토큰' 예측 기법에 대한 연구 결과를 발표했다. 이 기법은 전통적인 자동회귀 언어 모델 방식을 변형하여 여러 토큰을 동시에 예측함으로써 모델의 처리 속도를 최대 3배까지 빠르게 하고 정확도를 향상시킬 수 있다. 이 연구는 특정 언어 작업에서의 성능 개선 가능성을 제시하며, 기존 트랜스포머 아키텍처를 기반으로 여러 독립적인 출력 헤드를 통해 동시에 여러 토큰을 예측하는 것이 특징이다.

이 방법은 여러 개의 예측 머리를 사용해서 각 위치에서 다음 n개 단어를 예측하는 것입니다. 이를 통해 코드나 자연어 처리 모델의 능력이 더욱 향상되며, 이 방법을 사용하더라도 훈련 시간이 더 오래 걸리지 않습니다. 이 방법은 모델이 더 크면 더욱 효과적이며, 여러번 반복하는 에포크를 거치더라도 그 효과가 유지됩니다. 예를 들어, 13B 파라미터 모델은 다른 모델보다 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결할 수 있었으며, 코드 생성 벤치마크에서도 기존 모델들보다 좋은 결과를 보였습니다. 이 방법을 사용하는 것은 귀납적 사고나 알고리즘 추론 능력을 더욱 향상시키는 데에 유리하며, 4-토큰 예측으로 훈련된 모델은 큰 배치 크기에서도 추론 속도가 최대 3배 빨라진다는 장점이 있습니다.