메인 콘텐츠로 건너뛰기

HBM3E와 HBM4 비교: 차세대 고대역폭 메모리 정리

wislan
wislan
조회수 89

생성형 AI 도구를 활용하여 작성 및 편집된 노트입니다.

요약

개요

HBM3E와 HBM4는 AI 가속기, HPC(고성능 컴퓨팅), 대규모 데이터센터용으로 설계된 최신 고대역폭 메모리 규격으로, GPU·ASIC과 같은 고성능 칩 바로 옆에서 매우 높은 메모리 대역폭을 제공하는 것이 공통 목표다.1

두 세대는 모두 3D 적층 DRAM과 TSV(Through-Silicon Via), 실리콘 인터포저를 활용한다는 큰 틀은 같지만, HBM4는 채널 구성, 버스 폭, 최대 용량, 컨트롤러 구조 등에서 크게 변화해 AI 팩토리급 시스템을 겨냥한 규격으로 진화했다.12

HBM 개념과 세대 개요

HBM(High Bandwidth Memory)은 여러 개의 DRAM 다이를 수직으로 쌓고(3D 스택), 기둥처럼 관통하는 TSV로 상호 연결한 뒤, 실리콘 인터포저를 통해 GPU·CPU·ASIC과 매우 넓은 병렬 인터페이스(보통 1024비트 이상)로 연결하는 메모리 기술이다.1

JEDEC 표준상 HBM은 2013년 HBM1, 2016년 HBM2, 2019년 HBM2E, 2022년 HBM3, 2023년 HBM3E, 2025년 HBM4 순으로 발전해 왔으며, HBM3E와 HBM4는 최신 세대이자 AI·HPC용으로 가장 주목받는 규격이다.1

HBM3E의 주요 특징

HBM3E는 HBM3의 개량판으로, 동일한 1024비트 인터페이스 폭을 유지하면서 핀당 데이터 전송 속도를 크게 끌어올린 것이 특징이다.1

JEDEC 기준으로 HBM3E는 핀당 최대 9.8 Gb/s 전송 속도를 지원하며, 한 스택당 최대 16개 다이를 3D로 적층할 수 있고, 최대 용량은 48 GB에 이른다(16 dies × 3 GB).1 이 구성에서 한 스택이 제공하는 이론적 최대 대역폭은 약 1,229 GB/s(= 1.2 TB/s)로 정의된다.1

제조사별로는 8‑Hi, 12‑Hi 등 다양한 적층 높이와 공정 노드, 소비전력 최적화 전략을 적용하며, 예를 들어 Micron은 8‑Hi HBM3E를 이미 엔비디아 Blackwell GPU와 함께 공급하고 있고, 12‑Hi 제품은 같은 전력에서 더 큰 용량과 성능을 제공한다고 밝히고 있다.2

HBM4의 주요 특징

HBM4는 2025년 4월 JEDEC에 의해 공식 규격으로 발표된 차세대 HBM 표준으로, 가장 큰 변화는 인터페이스 폭이 기존 1024비트에서 2048비트로 두 배가 되었다는 점이다.1

표준 스펙에서 HBM4는 32×64비트 채널 구성(합계 2048비트)을 사용하며, 핀당 최대 데이터 전송 속도는 8 Gb/s로 정의된다.1 핀 속도만 보면 HBM3E(9.8 Gb/s)보다 낮아 보이지만, 버스 폭이 두 배라서 전체 대역폭은 오히려 크게 증가한다.

HBM4는 한 스택당 최대 16개 다이, 다이당 4 GB를 기준으로 최대 64 GB 용량을 제공하며, 이론적 최대 대역폭은 2,048 GB/s(= 2.0 TB/s)를 지원하도록 설계되어 있다.1 이는 HBM3E 대비 용량과 대역폭 모두에서 세대적 도약이다.

구체적인 제품 구현 측면에서 Micron의 HBM4는 1β(5세대 10nm급) DRAM 공정을 사용하고, 스택당 16개 DRAM 다이와 2048비트 인터페이스, 6.4 GT/s 전송 속도 구성에서 최대 1.64 TB/s 수준의 대역폭을 제공하는 것으로 발표되어 있다.2 이는 JEDEC 최고치(8 Gb/s, 2.0 TB/s)를 모두 사용하지 않는, 실제품에 가까운 한 예로 볼 수 있다.

HBM3E vs HBM4: 핵심 사양 비교

아래는 JEDEC 기준 HBM3E와 HBM4의 주요 사양을 비교한 표이다.1

항목HBM3EHBM4
표준 발표 시기2023년 5월경 (HBM3 개량판)2025년 4월
인터페이스 폭16×64비트 = 1024비트32×64비트 = 2048비트
최대 핀 속도9.8 Gb/s8 Gb/s
최대 다이 수/스택16개16개
기준 다이 용량3 GB4 GB
최대 용량/스택48 GB (16×3 GB)64 GB (16×4 GB)
최대 대역폭/스택1,229 GB/s2,048 GB/s

이 표만 놓고 보면 HBM4는 핀 속도는 낮지만, 인터페이스 폭을 두 배로 넓혀 전체 대역폭을 약 66%가량 끌어올렸고(1.23 TB/s → 2.05 TB/s), 스택당 최대 용량도 48 GB에서 64 GB로 약 33% 늘렸다.1

Micron의 최초 HBM4 구현 예시(6.4 GT/s, 2048비트, 1.64 TB/s)는 JEDEC 규격 범위 안에서 제조 공정, 전력, 수율 등을 고려해 밸런스를 맞춘 설계로 볼 수 있다.2 실제 제품에서는 클럭·전압·패키징 제약에 따라 JEDEC 이론 최대치보다 약간 낮은 값으로 출시되는 경우가 많다.

설계·패키징 관점의 변화

HBM3E와 HBM4 모두 TSV 기반 3D 적층과 실리콘 인터포저를 사용하지만, HBM4는 버스 폭이 두 배로 늘어나면서 패키지·인터포저 설계 난도가 크게 상승한다.12

2048비트 인터페이스를 처리하려면 인터포저 상에서 더 많은 라우팅 채널과 I/O 패드를 배치해야 하고, 이는 배선 밀도, 신호 무결성(SI), 전원 무결성(PI), 제조 수율 측면에서 추가적인 공정 기술과 패키징 혁신을 요구한다.1 이 때문에 HBM4 세대에서는 GPU/ASIC 제조사와 메모리, 패키징 파운드리(TSMC 등)의 공동 최적화가 더욱 중요해진다.2

또한 64 GB 스택을 여러 개 탑재하는 구성에서는 GPU 패키지 전체의 열 밀도와 전력 공급 설계가 한층 까다로워진다. 제조사들은 저전력 공정(예: Micron 1β, SK hynix·Samsung의 차세대 10nm급 공정)과 전력 최적화 설계를 통해 동일한 랙 내 전력 한도 내에서 더 많은 메모리 대역폭과 용량을 제공하려고 한다.2

생태계와 도입 일정

표준 관점에서 HBM3E는 이미 JEDEC 스펙이 완성되어 있고, 2024~2025년 기준으로 주요 AI 가속기(GPU, 전용 AI 칩)에 광범위하게 채택되고 있다.12 예를 들어, 12‑Hi HBM3E는 AMD Instinct MI325X/MI355X, 엔비디아 Blackwell B300 등 차세대 가속기에 탑재될 것으로 알려져 있다.2

HBM4는 2025년 4월 표준이 발표된 직후부터 메모리 업체들이 시제품과 초기 샘플을 준비 중이며, SK hynix는 TSMC 3nm 공정을 활용해 2025년 말 양산을 목표로 하고, Micron은 2026년 대량 양산을 계획하고 있다.2 엔비디아는 차세대 Vera Rubin, AMD는 Instinct MI400 시리즈와 같은 AI/HPC용 GPU 세대에서 HBM4를 사용할 것으로 예상되며, 메모리 업체들의 양산 계획도 이에 맞춰 조정되고 있다.2

Micron은 이미 주요 고객에게 HBM4를 공급하기 시작했다고 밝히고 있으며, 이는 2026년 이후 본격적인 AI 팩토리 구축 경쟁에서 HBM4 기반 시스템이 빠르게 확산될 수 있음을 시사한다.3 다만 HBM3E 역시 일정 기간 동안은 주력 제품군으로 함께 사용되며, 비용과 공급 안정성 측면에서 HBM4와 병행 운용되는 과도기가 존재할 가능성이 크다.2

어떤 워크로드에 어떤 세대가 유리한가

HBM3E는 이미 검증된 생태계와 높은 핀 속도(9.8 Gb/s)를 바탕으로, 고대역폭이 필요하지만 절대적인 메모리 용량 요구가 상대적으로 낮은 워크로드(예: 중형 규모 LLM, 고성능 그래픽·렌더링, 일부 과학 계산)에 적합하다.1

반면 HBM4는 스택당 최대 64 GB 용량과 2 TB/s 수준의 대역폭을 제공해, 초거대 LLM(수천억~수조 파라미터), 매우 긴 컨텍스트(수십만 토큰), 거대한 그래프·행렬 연산, 그리고 데이터센터·AI 팩토리에서의 랙 단위 대규모 병렬 처리에 더 적합한 규격이다.12 같은 보드 면적·전력 한도 내에서 더 많은 메모리 용량과 대역폭을 확보할 수 있다는 점이 핵심이다.

비용·공급 안정성 측면에서는 HBM4가 도입 초기에는 더 비싸고 수율 리스크가 크기 때문에, 많은 시스템이 HBM3E 탑재 버전과 HBM4 탑재 버전을 병행 제공해 고객이 용량·성능·비용 간 트레이드오프를 선택하도록 할 가능성이 높다.2

정리 및 시사점

정리하면, HBM3E는 1024비트 인터페이스와 9.8 Gb/s 핀 속도를 기반으로 스택당 최대 48 GB, 1.2 TB/s 수준의 대역폭을 제공하는 "현세대 주력" 규격이고, HBM4는 2048비트 인터페이스와 핀 속도 조정(8 Gb/s)을 통해 스택당 최대 64 GB, 2.0 TB/s 수준을 제공하는 "차세대 확장" 규격이다.1

AI·HPC 시스템 설계자 입장에서는, 같은 패키지·랙 단위 전력·공간 한도에서 얼마나 많은 메모리 대역폭·용량을 확보할 수 있는지가 핵심 경쟁 요소이며, 이 관점에서 HBM4는 LLM·멀티모달·에이전트형 AI 등 메모리 집약적 워크로드를 위한 중요한 인프라 기반이 될 가능성이 크다.123

그러나 HBM4는 패키징 복잡도, 공정 난이도, 비용 측면에서 도전 과제를 동반하므로, 단기간에는 HBM3E와의 공존이 불가피하고, 실제 시스템에서는 세대 혼용·제품 라인업 분화가 나타날 것으로 전망된다.2

참고

1High Bandwidth Memory - Wikipedia

2Micron advances HBM4 development, sets 2026 for mass production

3Micron Ships HBM4 to Key Customers to Power Next-Gen AI Platforms | Micron Technology

#HBM3E#HBM4#고대역폭 메모리#AI 가속기#HPC

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.