AMD GPU에서 매트릭스 코어 프로그래밍

2025-10-05

이 글은 AMD CDNA™4 아키텍처의 행렬 코어 프로그래밍을 다룹니다. 특히 FP16, FP8, FP4 같은 저정밀도 데이터 유형과 지수 블록 스케일링을 사용하는 새로운 행렬 코어 명령어에 중점을 둡니다.
행렬 곱셈은 AI 및 HPC 작업에 필수적인 작업으로, AMD CDNA™ 아키텍처는 이 작업을 가속하기 위한 전용 하드웨어인 행렬 코어를 제공합니다.
저정밀도 모드에서 행렬 코어를 사용하면 성능이 크게 향상됩니다. 예를 들어, AMD Instinct™ MI325X는 FP16 입력 행렬을 사용할 때 FP32 대비 약 8배의 성능 향상을 제공합니다.
CDNA™4 아키텍처는 FP16 및 FP8에 대해 CDNA™3 대비 최대 2배 높은 처리량을 제공합니다. 또한, FP6 및 FP4 같은 새로운 저정밀도 데이터 유형을 도입하여 FP32 대비 최대 64배 성능 이득을 가져옵니다.
저정밀도 부동소수점 유형은 승수를 증가시키고 맨티사의 넓이를 확장하여 표현 가능한 값의 범위를 넓히고 정밀도를 향상시키는 것이 가능합니다. E4M3, BF16, FP4 등 다양한 유형의 저정밀도 유형을 설명합니다.
CDNA™3 및 CDNA™4 아키텍처는 여러가지 MFMA(행렬 곱-덧셈) 명령어를 지원합니다. 특히, CDNA™4는 FP6 및 FP4 같은 새로운 데이터 유형을 도입하여 더 큰 행렬 차원의 MFMA 명령어를 제공합니다.
적용 가능한 예제로, HIP 커널 내에서 기존 및 새로운 데이터 유형을 사용하여 행렬 곱-덧셈을 구현하는 방법에 대해 설명합니다.
이러한 프로그래밍 방식을 통해 프로그래머는 AMD의 최신 GPU 아키텍처에서 저정밀도 형식을 효과적으로 사용할 수 있습니다.
추가 정보 및 리소스는 ROCm 블로그와 문서에서 확인할 수 있습니다.

4salykova.github.io링크 복사하기

AI 뉴스 요약은 뉴스의 내용을 AI가 요약(GPT-4 활용)한 것입니다. 따라서 틀린 내용을 포함할 수 있습니다. 뉴스의 자세한 내용을 확인하시려면 해당 뉴스 링크를 클릭해주세요.

📰AI 뉴스 리스트 보기

원본 뉴스 보기