Tokasaurus: 고처리량 작업을 위한 LLM 추론 엔진
- Tokasaurus는 고처리량 작업 부하를 위해 최적화된 새로운 LLM 추론 엔진이다.
- 작은 모델에서는 CPU 오버헤드를 최소화하고 Hydragen 그룹화를 통해 공유된 접두어를 활용한다.
- 큰 모델에서는 NVLink가 있는 GPU에 대해 비동기 텐서 병렬 처리를 지원하며, NVLink가 없는 경우 빠르면서도 효율적인 파이프라인 병렬 처리를 지원한다.
- Tokasaurus는 처리량 중심의 벤치마크에서 vLLM과 SGLang을 최대 3배 이상 능가할 수 있다.
- CPU 오버헤드 최소화와 동적 접두어 탐색 기능을 통해 작은 모델의 성능을 향상시킨다.
- Tokasaurus는 여러 GPU에 걸쳐 큰 모델을 효율적으로 제공할 수 있으며, NVLink가 없는 GPU 환경에서도 파이프라인 병렬 처리를 통해 효율성을 높인다.
- NVLink가 있는 GPU 환경에서는 비동기 텐서 병렬 처리 기능을 통해 통신 비용을 부분적으로 숨기면서 다른 연산과 중복시켜 효율성을 높인다.
- Tokasaurus는 오픈 소스로 제공되며, GitHub에서 코드 확인 및 PyPI를 통해 패키지를 설치할 수 있다.
- Llama-3 및 Qwen-2 모델 계열을 지원하며, 단일 노드 내의 데이터, 텐서, 파이프라인 병렬 처리의 임의 조합을 지원한다.
- 기술적인 세부사항과 벤치마크를 수행한 방법에 대한 정보도 제공하고 있으며, 주요 엔진들의 벤치마크 결과를 비교하였다.
- 프로젝트 진행에 도움을 준 협력자들에게 감사의 뜻을 전했다.
3scalingintelligence.stanford.edu링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.