Tokasaurus: 고처리량 작업을 위한 LLM 추론 엔진

2025-06-06

Tokasaurus는 고처리량 작업 부하를 위해 최적화된 새로운 LLM 추론 엔진이다.
작은 모델에서는 CPU 오버헤드를 최소화하고 Hydragen 그룹화를 통해 공유된 접두어를 활용한다.
큰 모델에서는 NVLink가 있는 GPU에 대해 비동기 텐서 병렬 처리를 지원하며, NVLink가 없는 경우 빠르면서도 효율적인 파이프라인 병렬 처리를 지원한다.
Tokasaurus는 처리량 중심의 벤치마크에서 vLLM과 SGLang을 최대 3배 이상 능가할 수 있다.
CPU 오버헤드 최소화와 동적 접두어 탐색 기능을 통해 작은 모델의 성능을 향상시킨다.
Tokasaurus는 여러 GPU에 걸쳐 큰 모델을 효율적으로 제공할 수 있으며, NVLink가 없는 GPU 환경에서도 파이프라인 병렬 처리를 통해 효율성을 높인다.
NVLink가 있는 GPU 환경에서는 비동기 텐서 병렬 처리 기능을 통해 통신 비용을 부분적으로 숨기면서 다른 연산과 중복시켜 효율성을 높인다.
Tokasaurus는 오픈 소스로 제공되며, GitHub에서 코드 확인 및 PyPI를 통해 패키지를 설치할 수 있다.
Llama-3 및 Qwen-2 모델 계열을 지원하며, 단일 노드 내의 데이터, 텐서, 파이프라인 병렬 처리의 임의 조합을 지원한다.
기술적인 세부사항과 벤치마크를 수행한 방법에 대한 정보도 제공하고 있으며, 주요 엔진들의 벤치마크 결과를 비교하였다.
프로젝트 진행에 도움을 준 협력자들에게 감사의 뜻을 전했다.

3scalingintelligence.stanford.edu링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기