메타의 멀티 토큰 예측 아키텍처

Better & Faster Large Language Models via Multi-token Prediction
메타와 여러 연구기관이 대형언어모델(LLM)의 성능과 속도를 개선하기 위한 '멀티 토큰' 예측 기법에 대한 연구 결과를 발표했다. 이 기법은 전통적인 자동회귀 언어 모델 방식을 변형하여 여러 토큰을 동시에 예측함으로써 모델의 처리 속도를 최대 3배까지 빠르게 하고 정확도를 향상시킬 수 있다. 이 연구는 특정 언어 작업에서의 성능 개선 가능성을 제시하며, 기존 트랜스포머 아키텍처를 기반으로 여러 독립적인 출력 헤드를 통해 동시에 여러 토큰을 예측하는 것이 특징이다.
이 방법은 여러 개의 예측 머리를 사용해서 각 위치에서 다음 n개 단어를 예측하는 것입니다. 이를 통해 코드나 자연어 처리 모델의 능력이 더욱 향상되며, 이 방법을 사용하더라도 훈련 시간이 더 오래 걸리지 않습니다. 이 방법은 모델이 더 크면 더욱 효과적이며, 여러번 반복하는 에포크를 거치더라도 그 효과가 유지됩니다. 예를 들어, 13B 파라미터 모델은 다른 모델보다 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결할 수 있었으며, 코드 생성 벤치마크에서도 기존 모델들보다 좋은 결과를 보였습니다. 이 방법을 사용하는 것은 귀납적 사고나 알고리즘 추론 능력을 더욱 향상시키는 데에 유리하며, 4-토큰 예측으로 훈련된 모델은 큰 배치 크기에서도 추론 속도가 최대 3배 빨라진다는 장점이 있습니다.
키워드만 입력하면 나만의 학습 노트가 완성돼요.
책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.
콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.