회원가입 로그인

추론 메모리 포화 효과 탐구: H100 vs. MI300x

2024-12-06

GPU 메모리는 LLM 추론 성능과 비용에 중요한 역할을 함.
NVIDIA H100와 AMD MI300x를 사용한 Llama 3.1 405B FP8 추론 성능 검토.
병렬 계산 자원이 제한될 때 처리량과 첫 번째 토큰까지의 시간(TTFT)에 미치는 영향 분석.
4xMI300x에서 두 개의 Llama 3.1 405B FP8 복제를 실행하는 것과 4xMI300x 및 8xMI300x에서 단일 복제를 실행하는 것 비교.
다가오는 NVIDIA H200, B200 및 AMD MI325x, MI350x의 성능 예측.

테스트 환경

AMD 8xMI300x 및 NVIDIA 8xH100 SXM5 세팅.
온라인 및 오프라인 추론 벤치마크 수행.

관찰 결과

큰 프롬프트의 경우 8xMI300x 단일 구성 대비 4xMI300x의 두 개 복제는 메모리 비용 면에서 불리함.
8xMI300x 단일 구성의 경우 처리량 증가와 비용 절감 효과.
8xH100 SXM5는 작은 부하 프로파일에서 4xMI300x보다 더 낮은 비용 대비 성능을 제공함.
큰 프롬프트와 배치 크기에서 4xMI300x 병렬 복제 구성은 메모리 부족으로 성능 저하 발생.
8xH100 구성은 더 높은 요청 처리 성능과 더 짧은 TTFT 제공.

AMD MI300x vs NVIDIA H200

MI300x는 8xH100 대비 더 많은 메모리와 대역폭 제공.
그러나 같은 병렬성 및 처리량 제공은 아님.

향후 GPU 성능 예측

MI325x 및 MI350x는 각각 256GB, 288GB 메모리와 더 높은 메모리 대역폭 제공.
NVIDIA B200는 더 높은 TFLOPS와 메모리 대역폭으로 더 낮은 TTFT 기대.

결론

서로 다른 GPU 및 구성별 성능 비교를 통해 비용 효과적인 추론 전략 도출 가능성.
벤치마크 과정에서 제공된 지원에 감사 표현.

참고 자료

GitHub 저장소에서 소스 코드와 결과물 확인 가능.
Hot Aisle 및 Lambda의 지원으로 벤치마크 수행.

4dstack.ai링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기