메인 콘텐츠로 건너뛰기

AMD Instinct MI400 시리즈 AI 가속기 완벽 정리

wislan
wislan
조회수 61

생성형 AI 도구를 활용하여 작성 및 편집된 노트입니다.

요약

개요

AMD Instinct MI400 시리즈는 2026년 출시가 예고된 차세대 데이터센터용 AI 가속기(GPU) 제품군으로, CDNA 5(일부 자료에서는 CDNA-Next, UDNA로도 언급) 아키텍처를 기반으로 설계된다.234 이 시리즈는 대규모 생성형·에이전틱(Agentic) AI, 초대형 언어모델(LLM) 학습과 추론, HPC(고성능 컴퓨팅)를 겨냥해 설계된 AMD의 주력 AI GPU 라인업이다.12

Generated Image

AMD 공식 로드맵과 파트너 발표를 종합하면, MI400는 전 세대인 MI350 시리즈 대비 메모리 용량, 메모리 대역폭, 저정밀도(FP4/FP6/FP8) 연산 성능, 그리고 랙 스케일(Rack-scale) 확장성에서 크게 향상될 것으로 예상된다.12 특히 GPU 한 개당 최대 432GB의 HBM4 메모리, 최대 40 PFLOPS급 FP4(MXFP4) 연산 성능, 300GB/s 수준의 스케일아웃(Scale-out) 대역폭이 제시되며, 이는 엔비디아 차세대 플랫폼과 직접 경쟁하기 위한 스펙으로 해석된다.12

다만 MI400 시리즈는 아직 출시 전 제품으로, 공식 발표가 아닌 드라이버 패치, 파트너 브리핑, 로드맵 자료 등에서 일부 정보가 드러난 상태다.12345 따라서 세부 사양과 모델 구성은 변경될 수 있으며, 현재까지 공개된 정보는 "예상·계획" 수준이라는 점을 염두에 둘 필요가 있다.

AMD Instinct MI400 및 후속 MI500 로드맵 개요 슬라이드

이미지 출처: AMD's confirms Instinct MI400 series AI GPUs drop in 2026, next-gen Instinct MI500 in 2027

아키텍처 개요: CDNA 5와 칩렛 설계

MI400 시리즈는 AMD의 차세대 데이터센터 GPU 아키텍처인 CDNA 5를 기반으로 하며, 일부 로드맵에서는 RDNA와 CDNA를 통합하려는 "UDNA(혹은 CDNA-Next)" 전략의 일환으로 언급된다.234 CDNA는 그래픽 렌더링보다는 행렬 연산·벡터 연산 등 HPC·AI 중심으로 최적화된 아키텍처로, MI400는 이 계열의 5세대 제품군이다.24

하드웨어 구조 측면에서 MI400는 칩렛 기반 MCM(Multi-Chip Module) 설계를 더욱 확장한다. 최신 패치 분석에 따르면, MI400에는 두 개의 AID(Active Interposer Die)가 사용되며, 각 AID에는 4개의 XCD(Accelerated Compute Die)가 탑재되어 총 8개의 XCD가 하나의 패키지를 구성하는 것으로 나타난다.34 이는 MI300 세대에서 AID당 2개 XCD였던 구성보다 연산 칩렛 수가 두 배로 늘어난 설계다.34

또한 MI400에서는 기존 세대와 달리 멀티미디어 및 I/O 기능을 담당하는 별도의 MID(Multimedia I/O Die)가 도입되는 점이 특징이다.34 각 AID마다 전용 MID 타일을 둘 수 있는 구조로, 연산 칩렛(XCD)과 I/O 인터페이스 사이의 데이터 흐름을 효율적으로 관리하여 대역폭과 지연시간 측면에서 이점을 제공할 것으로 기대된다.34

새로운 칩 구조: AID, XCD, MID의 역할

AID(Active Interposer Die)는 여러 개의 XCD와 HBM 메모리, 그리고 기타 타일들을 고속 인터커넥트로 연결하는 '능동형 인터포저' 역할을 한다.34 MI400에서 AID는 단순한 배선 기판을 넘어, 데이터 라우팅과 캐시·버퍼 구조, 전력·신호 무결성 관리까지 수행하는 복잡한 논리 구조를 갖는 것으로 추정된다.34

XCD(Accelerated Compute Die)는 실제 연산을 담당하는 GPU 코어 칩렛으로, 행렬 연산 유닛, 벡터 유닛, 텐서 연산, 캐시 등을 포함한다.34 MI400는 8개의 XCD를 탑재해, 동일 세대 공정·클럭 기준으로 MI350보다 훨씬 높은 최대 연산 성능을 제공할 기반을 마련한 것으로 평가된다.234

MID(Multimedia I/O Die)는 이름 그대로 멀티미디어 처리와 고속 I/O를 담당하는 타일로, 비디오 코덱, 디스플레이 출력, PCIe·CXL·네트워크 인터페이스와 같은 기능을 통합할 가능성이 제기된다.34 MI350까지는 인피니티 패브릭(Infinity Fabric)을 통한 다이 간 통신이 중심이었다면, MI400에서는 MID를 통해 연산 다이와 I/O 사이의 전용 경로가 강화되어, 대규모 AI 클러스터에서 GPU 간 통신·데이터 로딩 효율이 개선될 것으로 기대된다.34

메모리 시스템: HBM4와 대역폭 향상

MI400 시리즈는 차세대 고대역폭 메모리인 HBM4를 채택하며, GPU 한 개당 최대 432GB 용량이 계획되어 있다.12 이는 MI350 시리즈가 제공하는 최대 288GB HBM3E 대비 약 50% 증가한 수치로, 거대 언어모델과 멀티 모달(텍스트·이미지·영상 결합) 모델에서 요구되는 파라미터·KV 캐시·피처 맵 저장을 더 넉넉하게 수용할 수 있다.12

메모리 대역폭 측면에서는 한 GPU당 최대 19.6TB/s 수준이 언급되는데, 이는 MI350의 8TB/s 대비 두 배 이상 높은 수치다.2 메모리 대역폭은 대규모 행렬 연산과 시퀀스 길이가 긴 LLM에서 곧바로 처리 속도에 연결되기 때문에, MI400는 메모리 병목을 줄여 FP8 이하 저정밀 연산의 실효 성능을 극대화하는 데 초점을 둔 것으로 보인다.12

연산 성능: FP4·FP8 중심의 AI 최적화

AMD는 MI400 시리즈(특히 MI450/MI455X 계열)를 자사 "가장 진보된 AI 가속기"라고 소개하며, 저정밀도 포맷에서의 연산 성능을 전면에 내세운다.2 로드맵에 따르면 MI450 시리즈는 FP4(MXFP4) 기준 최대 40 PFLOPS, FP8 기준 최대 20 PFLOPS의 연산 성능을 제공할 계획이다.12 이는 MI350 시리즈의 FP4/FP6 20 PFLOPS, FP8 5 PFLOPS 수준에서 각각 2배, 4배 향상된 수치다.12

FP16, FP32, FP64와 같은 고정밀 포맷에 대한 구체적인 수치는 아직 공개되지 않았지만, MI350X가 FP16 기준 2.3 PFLOPS, FP8 기준 4.6 PFLOPS를 달성한 점을 고려하면, MI400는 주로 FP4/FP6/FP8 영역에서의 대규모 LLM·멀티모달 모델 처리에 최적화될 가능성이 크다.4 이러한 저정밀 포맷은 학습·추론 정확도를 크게 떨어뜨리지 않으면서도 연산량과 메모리 사용량을 줄여, 동일 전력·동일 비용 대비 성능을 극대화하는 방식으로 활용된다.

제품 라인업: MI455X, MI430X 등 세부 모델

AMD 재무 분석가 데이(Analyst Day) 발표에 따르면, MI400는 여러 하위 모델로 구성되며 용도별로 포지셔닝이 나뉜다.2 대표적으로 MI455X는 "Training/Inference" 용으로, 대규모 생성형 AI 모델의 학습과 추론을 모두 겨냥한 플래그십 제품군이다.2 반면 MI430X는 "HPC"에 초점을 맞춘 변종으로, 과학 계산, 시뮬레이션, 전통적인 고성능 컴퓨팅 워크로드에 최적화될 예정이라고 소개된다.2

구체적인 GPU 코어 수, 클럭, 전력(TDP), 냉각 방식 등은 아직 공개되지 않았으나, MI350X가 최대 1400W급 TDP를 사용하는 OAM 폼팩터를 채택한 만큼, MI400 시리즈 역시 OCP OAM 혹은 후속 폼팩터 기반, 공랭·수랭을 병행한 고전력 설계가 될 것으로 업계는 전망하고 있다.24

랙 스케일 플랫폼 "Helios"와 MI400

AMD는 단일 GPU 성능뿐 아니라, 랙 단위·클러스터 단위의 통합 플랫폼을 강조하고 있다. 이를 대표하는 것이 MI400 기반 랙 레퍼런스 디자인 "Helios"다.1 Helios는 MI400 시리즈 GPU, 6세대 EPYC "Venice" CPU, Pensando "Vulcano" AI NIC를 결합한 오픈 랙 스케일 AI 인프라 솔루션으로, 특히 에이전틱(Agentic) AI 워크플로를 염두에 둔 설계다.1

Helios 설계에서 MI400는 GPU당 최대 432GB HBM4, 40 PFLOPS MXFP4, 300GB/s 수준의 스케일아웃 대역폭을 제공하며, 랙 내 최대 72개의 GPU를 UALink 기반 고속 패브릭으로 연결한다.1 이때 UALink는 GPU 간, GPU-NIC 간 인터커넥트에 사용되고, UAL을 이더넷 위로 터널링해 랙 내 모든 GPU가 마치 하나의 거대한 시스템처럼 통신할 수 있도록 설계된다.1

Helios에는 최대 256코어를 제공하는 6세대 EPYC "Venice" CPU가 탑재되어, 대규모 AI 학습·추론 작업에서 호스트 CPU의 스케줄링, 데이터 전처리, 에이전틱 AI 에이전트 오케스트레이션 등을 담당한다.1 또한 Pensando "Vulcano" AI NIC는 800G 네트워크 속도와 기존 대비 최대 8배의 GPU당 스케일아웃 대역폭을 제공해, 대규모 클러스터에서 통신 병목을 최소화하는 것을 목표로 한다.1

소프트웨어 및 생태계: ROCm과 오픈 표준

MI400 시리즈는 AMD의 오픈 소스 AI·HPC 소프트웨어 스택인 ROCm의 최신 버전에서 지원될 예정이다.5 ROCm은 컴파일러, 런타임, 라이브러리, 커널 최적화 등으로 구성되며, GEMM, Attention 등 핵심 AI 커널의 성능 최적화가 지속적으로 진행되고 있다.5 MI400를 위해 FP4/FP6/FP8 포맷 지원과 새로운 아키텍처에 맞춘 커널 최적화가 함께 제공될 가능성이 크다.5

또한 MI400 기반 Helios 랙은 OCP(Open Compute Project) 및 Ultra Ethernet Consortium(UEC) 표준을 따르는 오픈 설계를 채택하여, 특정 벤더에 종속되지 않는 네트워킹·랙 인프라를 지향한다.1 이는 기존에도 MI350 시리즈와 EPYC CPU, Pensando Pollara NIC를 묶어서 OCP 호환 랙을 제공해 온 전략의 연장선으로, 클라우드 서비스 사업자(CSP)와 엔터프라이즈 고객에게 다양한 OEM·ODM 선택권을 제공하는 것을 목표로 한다.1

로드맵: MI350에서 MI400, 그리고 MI500으로

AMD의 공식 로드맵에 따르면, 3nm 공정 기반 CDNA 4 아키텍처를 사용하는 MI355X/MI350 시리즈가 2025년 출시된 후, 2026년에 CDNA 5 기반 MI400 시리즈가, 2027년에는 그 후속인 MI500 시리즈가 순차적으로 등장할 예정이다.124 MI350는 이미 MI300 대비 최대 35배의 AI 추론 성능 향상, 크게 확장된 HBM3E 메모리(최대 288GB), FP4/FP6 지원 등을 통해 세대 도약을 이룬 제품으로 소개된다.4

MI400는 이러한 MI350의 도약을 다시 한 번 상향 갱신하는 세대로, 메모리(288→432GB), 메모리 대역폭(8→19.6TB/s), FP4/FP8 연산 성능(20→40 PFLOPS, 5→20 PFLOPS) 등 핵심 지표를 크게 끌어올리는 것을 목표로 한다.12 이후 MI500 시리즈는 2nm 공정과 CDNA 6 아키텍처를 기반으로 2027년 이후 추가적인 성능·효율 향상을 제공할 계획이다.23

경쟁 구도와 의미

MI400 시리즈는 엔비디아의 차세대 Vera Rubin 플랫폼과 직접적인 경쟁 관계에 놓일 것으로 예상된다.2 특히 메모리 용량(432GB HBM4), 메모리 대역폭(19.6TB/s), 랙 스케일 대역폭(300GB/s per GPU)과 같은 지표는, 초대형 LLM·멀티모달 모델 학습에서 성능·비용 효율을 결정짓는 핵심 요소다.12

AMD는 단일 GPU 성능뿐 아니라, 오픈 표준 기반 랙·클러스터 설계, EPYC CPU 및 Pensando NIC와의 통합, ROCm 소프트웨어 스택을 동시 제공함으로써 "엔드 투 엔드(End-to-end) AI 인프라"를 하나의 생태계로 묶는 전략을 취하고 있다.1 이러한 전략은 특정 폐쇄형 생태계에 대한 의존을 줄이고, 다양한 클라우드·온프레미스 환경에서 고객 선택권을 확대하려는 시도로 평가된다.1

활용 전망

MI400 시리즈와 Helios 같은 레퍼런스 랙 설계는, 초대형 LLM 학습·파인튜닝, 다중 에이전트 기반 에이전틱 AI, 실시간 멀티모달 추론, 고밀도 HPC 시뮬레이션 등 가장 까다로운 워크로드를 겨냥하고 있다.12 특히 GPU당 메모리 용량과 랙 스케일 대역폭이 크다는 점에서, 수천억~수조 파라미터급 모델을 더 적은 노드 수로 운용하거나, 같은 노드 수에서 더 큰 모델을 실험할 수 있게 해 줄 가능성이 크다.124

아직 세부 사양과 실제 벤치마크는 공개되지 않았지만, AMD의 MI300→MI350→MI400로 이어지는 로드맵과, 이를 뒷받침하는 EPYC·Pensando·ROCm 생태계를 고려하면, MI400는 AI 인프라 시장에서 AMD의 입지를 크게 강화할 잠재력을 가진 세대로 평가된다.1245

참고

1AMD Delivering Open Rack Scale AI Infrastructure

2AMD's confirms Instinct MI400 series AI GPUs drop in 2026, next-gen Instinct MI500 in 2027

3AMD Instinct MI400 Spotted In Latest Patches, Will Feature Up To 8 Chiplets On Dual Interposer Dies

4AMD instinct MI400 spotted in patches: up to 8 XCDs on dual interposer dies with new Multimedia I/O Die

#AMD#AI 가속기#MI400#CDNA 5#HBM4

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.