추론 메모리 포화 효과 탐구: H100 vs. MI300x
- GPU 메모리는 LLM 추론 성능과 비용에 중요한 역할을 함.
- NVIDIA H100와 AMD MI300x를 사용한 Llama 3.1 405B FP8 추론 성능 검토.
- 병렬 계산 자원이 제한될 때 처리량과 첫 번째 토큰까지의 시간(TTFT)에 미치는 영향 분석.
- 4xMI300x에서 두 개의 Llama 3.1 405B FP8 복제를 실행하는 것과 4xMI300x 및 8xMI300x에서 단일 복제를 실행하는 것 비교.
- 다가오는 NVIDIA H200, B200 및 AMD MI325x, MI350x의 성능 예측.
테스트 환경
- AMD 8xMI300x 및 NVIDIA 8xH100 SXM5 세팅.
- 온라인 및 오프라인 추론 벤치마크 수행.
관찰 결과
- 큰 프롬프트의 경우 8xMI300x 단일 구성 대비 4xMI300x의 두 개 복제는 메모리 비용 면에서 불리함.
- 8xMI300x 단일 구성의 경우 처리량 증가와 비용 절감 효과.
- 8xH100 SXM5는 작은 부하 프로파일에서 4xMI300x보다 더 낮은 비용 대비 성능을 제공함.
- 큰 프롬프트와 배치 크기에서 4xMI300x 병렬 복제 구성은 메모리 부족으로 성능 저하 발생.
- 8xH100 구성은 더 높은 요청 처리 성능과 더 짧은 TTFT 제공.
AMD MI300x vs NVIDIA H200
- MI300x는 8xH100 대비 더 많은 메모리와 대역폭 제공.
- 그러나 같은 병렬성 및 처리량 제공은 아님.
향후 GPU 성능 예측
- MI325x 및 MI350x는 각각 256GB, 288GB 메모리와 더 높은 메모리 대역폭 제공.
- NVIDIA B200는 더 높은 TFLOPS와 메모리 대역폭으로 더 낮은 TTFT 기대.
결론
- 서로 다른 GPU 및 구성별 성능 비교를 통해 비용 효과적인 추론 전략 도출 가능성.
- 벤치마크 과정에서 제공된 지원에 감사 표현.
참고 자료
- GitHub 저장소에서 소스 코드와 결과물 확인 가능.
- Hot Aisle 및 Lambda의 지원으로 벤치마크 수행.
4dstack.ai링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.