AMD GPU에서 매트릭스 코어 프로그래밍

  • 이 글은 AMD CDNA™4 아키텍처의 행렬 코어 프로그래밍을 다룹니다. 특히 FP16, FP8, FP4 같은 저정밀도 데이터 유형과 지수 블록 스케일링을 사용하는 새로운 행렬 코어 명령어에 중점을 둡니다.
  • 행렬 곱셈은 AI 및 HPC 작업에 필수적인 작업으로, AMD CDNA™ 아키텍처는 이 작업을 가속하기 위한 전용 하드웨어인 행렬 코어를 제공합니다.
  • 저정밀도 모드에서 행렬 코어를 사용하면 성능이 크게 향상됩니다. 예를 들어, AMD Instinct™ MI325X는 FP16 입력 행렬을 사용할 때 FP32 대비 약 8배의 성능 향상을 제공합니다.
  • CDNA™4 아키텍처는 FP16 및 FP8에 대해 CDNA™3 대비 최대 2배 높은 처리량을 제공합니다. 또한, FP6 및 FP4 같은 새로운 저정밀도 데이터 유형을 도입하여 FP32 대비 최대 64배 성능 이득을 가져옵니다.
  • 저정밀도 부동소수점 유형은 승수를 증가시키고 맨티사의 넓이를 확장하여 표현 가능한 값의 범위를 넓히고 정밀도를 향상시키는 것이 가능합니다. E4M3, BF16, FP4 등 다양한 유형의 저정밀도 유형을 설명합니다.
  • CDNA™3 및 CDNA™4 아키텍처는 여러가지 MFMA(행렬 곱-덧셈) 명령어를 지원합니다. 특히, CDNA™4는 FP6 및 FP4 같은 새로운 데이터 유형을 도입하여 더 큰 행렬 차원의 MFMA 명령어를 제공합니다.
  • 적용 가능한 예제로, HIP 커널 내에서 기존 및 새로운 데이터 유형을 사용하여 행렬 곱-덧셈을 구현하는 방법에 대해 설명합니다.
  • 이러한 프로그래밍 방식을 통해 프로그래머는 AMD의 최신 GPU 아키텍처에서 저정밀도 형식을 효과적으로 사용할 수 있습니다.
  • 추가 정보 및 리소스는 ROCm 블로그와 문서에서 확인할 수 있습니다.

4salykova.github.io링크 복사하기
AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.
원본 뉴스 보기