데이비드 패터슨이 짚은 LLM 추론 하드웨어의 병목과 해법

LLM 추론 하드웨어는 “연산이 빠르면 끝”인 게임이 아닙니다. 특히 트랜스포머 기반 LLM의 자동회귀(autoregressive) 디코드 단계는 훈련 때와 작동 방식이 달라, 토큰을 한 개씩 만들 때마다 메모리와 통신이 발목을 잡기 쉽습니다. 데이비드 패터슨과 공동저자는 이 지점을 정면으로 파고들며, 앞으로의 핵심 전장이 컴퓨트가 아니라 메모리·인터커넥트로 이동했다고 말합니다.¹

이 글에서는 그 주장(왜 그런지), 그리고 논문이 제안하는 연구 방향 4가지를 “하드웨어 비전공자도 감 잡히는 수준”으로 풀어보겠습니다. 데이터센터 중심 이야기지만, 모바일/엣지로 번질 가능성도 함께 짚습니다.

LLM 추론이 훈련과 다른 이유: 디코드가 ‘한 토큰씩’이라서

훈련(training)은 대개 한 번에 많은 토큰을 묶어 처리하며, GPU/TPU의 대규모 병렬성을 잘 활용합니다. 반면 추론(inference)의 디코드(decode)는 사용자가 보는 “문장 생성” 구간인데, 다음 토큰을 만들기 위해 직전에 만든 토큰과 이전 상태를 계속 참조합니다.

이 과정이 왜 까다롭냐면, 매 스텝마다 모델 가중치와 KV 캐시 같은 데이터가 반복적으로 오가며 “자주, 조금씩, 끊임없이” 움직이기 때문입니다. 연산 유닛이 아무리 강해도, 필요한 데이터를 제때 못 가져오면 코어는 멈춰 서서 기다리게 됩니다. 그래서 체감 속도가 “최신 GPU인데도 토큰 생성이 생각보다 안 빨라요”로 귀결되는 일이 흔합니다.

병목의 중심 이동: 컴퓨트가 아니라 메모리·인터커넥트

패터슨의 메시지는 단순합니다. 최근 AI 트렌드(더 큰 모델, 더 긴 컨텍스트, 더 많은 동시 사용자)가 겹치면서, 추론의 최전선은 FLOPS 경쟁이 아니라 메모리 대역폭·지연시간, 그리고 칩 간 통신으로 옮겨갔다는 겁니다.¹

이를 생활 비유로 바꾸면 이렇습니다. “요리사(연산)는 늘었는데, 냉장고 문(메모리 대역폭)이 좁고 주방 동선(인터커넥트)이 막혀서, 요리사가 재료를 못 꺼내 요리가 느려진다.” 결국 해결책은 요리사를 더 뽑는 게 아니라 냉장고와 동선을 바꾸는 쪽에 가깝습니다.

연구 방향 1: HBM급 대역폭 + 10배 용량을 노리는 ‘고대역폭 플래시’

논문이 제일 도발적으로 던지는 카드는 High Bandwidth Flash입니다. 요지는 “HBM처럼 빠르게 읽는데, 용량은 훨씬 크게”라는 방향이며, HBM과 유사한 대역폭을 유지하면서 메모리 용량을 10배로 늘릴 잠재력을 연구 기회로 강조합니다.¹

여기서 포인트는 “플래시를 DRAM처럼 쓰자”가 아니라, LLM 추론에서 자주 바뀌지 않는 것(예: 고정된 가중치, 상대적으로 덜 변하는 데이터)을 더 큰/싼 계층에 얹어 전체 시스템 균형을 바꾸자는 관점입니다. 모델이 커질수록 “한 번에 올려둘 수 있는 용량” 자체가 성능과 비용을 함께 결정하니까요.

연구 방향 2: 메모리 근접 처리(Processing-Near-Memory)로 ‘가져오는 거리’를 줄이기

두 번째는 Processing-Near-Memory(PNM), 즉 “메모리 바로 옆에서 일부 처리를 하자”입니다.¹

LLM 추론은 디코드 단계에서 특히 메모리 왕복이 잦습니다. 그러니 데이터를 멀리서 끌고 오기보다, 메모리 주변에서 필요한 전처리/부분 연산을 처리하면 대역폭 낭비와 지연을 동시에 줄일 여지가 생깁니다.

엣지 쪽에서도 비슷한 발상이 확산 중입니다. 예를 들어 MoE(전문가 혼합)처럼 메모리 발자국이 큰 모델을 엣지에 얹기 위해, “데이터 근처(NDP)에서 일부를 처리하고 스케줄링으로 균형을 맞춘다”는 연구도 나옵니다.² 결은 다르지만, 공통점은 “모델이 커질수록 전송이 죄다 비용”이라는 현실을 인정한다는 점입니다.

연구 방향 3: 3D 메모리-로직 적층으로 ‘배선의 물리’를 바꾸기

세 번째는 3D 메모리-로직 적층(3D memory-logic stacking)입니다.¹

칩 설계에서 성능을 갉아먹는 건 알고리즘만이 아닙니다. 데이터가 이동하는 물리 거리, 배선, 전력, 발열이 실제 속도를 좌우합니다. 적층은 말 그대로 메모리와 로직을 더 가깝게(또는 수직으로) 붙여서, 기존 보드 레벨 연결이 만들던 병목을 줄이는 방향입니다.

LLM 추론처럼 “계속 가져와야 하는” 워크로드에선, 이런 패키징/적층 혁신이 곧바로 토큰 생성 속도와 효율(와트당 성능)로 연결될 가능성이 큽니다.

연구 방향 4: 저지연 인터커넥트—추론은 ‘대역폭’보다 ‘지연시간’이 아플 때가 많다

마지막은 low-latency interconnect(저지연 인터커넥트)입니다.¹

훈련은 큰 덩어리의 데이터를 비교적 규칙적으로 주고받는 편이라 “굵게, 많이”가 중요할 때가 많습니다. 그런데 추론 디코드는 작고 잦은 통신이 늘어나기 쉽습니다. 특히 모델 병렬/파이프라인 병렬, 다수 가속기 분산 환경에서는 토큰 생성마다 “짧은 메시지 왕복”이 누적되며 발목을 잡습니다.

그래서 논문은 단순히 링크 속도를 올리는 것보다, 통신 지연을 줄여 체감 성능을 끌어올리는 방향을 중요한 연구 기회로 봅니다.

시사점 내용 (핵심 포인트 정리 + 개인적인 생각 또는 실용적 조언)...

결국 패터슨이 던진 결론은 “LLM 추론 하드웨어의 승부는 메모리와 통신에서 난다”로 요약됩니다.¹ 디코드 단계가 본질적으로 한 토큰씩 움직이며, 그때마다 가중치·KV 캐시를 읽고, 여러 칩을 오가며, 지연이 쌓이기 때문입니다.

실무적으로는 이런 감각이 도움이 됩니다. 데이터센터 관점에서 인퍼런스 성능을 올리고 싶다면 ‘더 센 가속기’만 보기보다, 모델을 얼마나 한 노드에 담는지(용량), 디코드 시 메모리 트래픽이 어떻게 생기는지(대역폭/지연), 그리고 멀티가속기 통신이 얼마나 촘촘한지(인터커넥트)를 함께 봐야 합니다.

모바일/엣지 쪽은 당장 HBM급 패키징을 들이기 어렵지만, “메모리 중심 최적화”라는 방향성은 이미 현실적인 형태로 변주되고 있습니다. 온디바이스 LLM이 커질수록, 결국 우리도 같은 벽(용량, 대역폭, 지연)을 만나게 될 테니까요.

참고

¹Challenges and Research Directions for Large Language Model Inference Hardware

²A Scheduling Framework for Efficient MoE Inference on Edge GPU-NDP Systems