메인 콘텐츠로 건너뛰기

마이크로소프트 Maia 200 공개: AI 추론 비용을 바꾸는 새 칩

요약

AI가 똑똑해질수록 “학습(Training)”만큼이나 “추론(Inference)” 비용이 커지고 있습니다. 추론은 이미 만들어진 모델이 질문을 받고 답을 만들어내는 실행 단계인데, 우리가 매일 쓰는 Copilot 같은 서비스에선 사실상 이 비용이 ‘운영비의 본체’가 되곤 하죠.

마이크로소프트는 이 문제를 정면으로 겨냥해, AI 추론 전용 가속기 Maia 200을 발표했습니다. 이전 세대인 Maia 100에서 한 단계 더 나아가, 더 큰 모델을 더 싸고(성능/달러), 더 적은 전력으로(성능/와트) 돌리려는 목표가 분명합니다.12

Maia 200 AI 칩 한 줄 요약: “토큰을 싸게 찍는 엔진”

Maia 200을 이해하는 가장 쉬운 관점은 “토큰 생산 공장”입니다. 챗봇이 문장을 만들 때, 단어·기호 단위의 토큰을 계속 생성하는데 이 과정이 곧 추론입니다. 토큰을 더 빨리, 더 싸게, 더 적은 전기로 만들어내면 클라우드 사업자는 이익이 커지고, 사용자는 더 빠른 응답을 받습니다.

마이크로소프트는 Maia 200이 Azure에서 자사가 배포한 추론 시스템 중 가장 효율적이라고 강조하며, 동일 비용 기준 대안 대비 성능이 더 높다(성능/달러 30% 개선)고 밝혔습니다.23

성능 숫자가 말하는 것: FP4 10페타급의 의미

Maia 200은 초저정밀 연산에서 특히 강합니다. 대표적으로 FP4에서 10페타(약 10.1 PetaOPS) 수준을 내세우고, FP8에서도 매우 높은 수치를 제시합니다.13

여기서 중요한 포인트는 “요즘 LLM 추론이 저정밀로 옮겨가고 있다”는 흐름입니다. 모델 가중치를 4비트 계열로 저장하고, 필요한 곳만 더 높은 정밀도로 계산해 비용을 줄이는 방식이 널리 쓰이죠. Maia 200은 이 트렌드에 맞춰 FP8/FP6/FP4 중심의 하드웨어 경로를 두껍게 설계했습니다.13

추론의 병목은 ‘계산’보다 ‘메모리’: 216GB HBM3e와 7TB/s

추론은 “계산을 많이 하는 문제”이기도 하지만, 대규모 모델에선 “메모리를 얼마나 빨리 퍼올리느냐”가 체감 성능을 지배합니다. 토큰 하나를 만들 때도 모델의 활성 가중치를 메모리에서 계속 읽어야 하기 때문입니다.

Maia 200은 이 부분을 과감하게 밀어붙였습니다. HBM3e 216GB를 탑재했고, 대역폭은 7TB/s를 제시합니다.134 여기에 온칩 SRAM 272MB를 조합해, 자주 쓰는 데이터를 더 가까운 곳에 붙잡아두는 구조로 효율을 끌어올립니다.3

“엔비디아 말고 이더넷”: 6,144개 칩까지 묶는 스케일 전략

흥미로운 대목은 네트워킹입니다. 마이크로소프트는 Maia 200을 대규모로 묶는 방식에서 이더넷 기반 스케일업을 전면에 내세웁니다. 칩 간 연결 대역폭으로 양방향 2.8TB/s(단방향 1.4TB/s)를 언급했고, 최대 6,144개 가속기까지 확장 가능한 설계를 이야기합니다.132

즉, “좋은 칩 1개”가 아니라 “많이 묶었을 때 덜 아픈 칩”을 목표로 했다는 뜻입니다. 초대형 모델은 결국 분산 실행이 필수라서, 클러스터 네트워크가 곧 제품 경쟁력이 되거든요.

전력과 비용: 데이터센터가 진짜 원하는 방향

마이크로소프트가 Maia 200을 꺼낸 핵심 배경은 단순합니다. AI 수요는 폭증하는데, 데이터센터 전력·냉각·운영비는 한계에 부딪혔기 때문입니다.

Maia 200은 칩 전력으로 약 750W 수준이 언급되며(경쟁 대비 낮은 축), 공랭/수랭 환경 모두를 염두에 둔 배치가 가능하다고 소개됩니다.1 그리고 회사는 “시장에서 판매되는 다른 AI 실리콘 대비 30% 저렴”하다는 주장까지 덧붙였습니다.1

이 지점이 중요한 이유는, AI 제품의 경쟁이 이제 “모델 성능”만이 아니라 “토큰 단가”로도 갈라지기 때문입니다. 같은 답변을 더 싸게 만들 수 있으면 가격 정책도, 서비스 확장도 훨씬 공격적으로 가져갈 수 있습니다.

실제 사용처: Copilot과 ‘슈퍼인텔리전스’ 팀이 먼저 쓴다

Maia 200은 발표용 슬라이드에만 있는 칩이 아니라, 마이크로소프트 내부에서 이미 굴러가고 있습니다. 회사는 Superintelligence 팀Microsoft 365 Copilot 상용 서비스에서 활용된다고 밝혔고, 미국 데이터센터(US Central)부터 인스턴스 형태로 확장해 나간다고 합니다.21

또한 개발자·학계·AI 연구소 등을 대상으로 SDK 프리뷰를 제공하면서 생태계를 붙이려는 움직임도 보입니다.21 지원 스택으로 PyTorch와 Triton 커널을 언급해, “완전 새 세상”이 아니라 “기존 워크플로우를 최대한 유지”하려는 방향이 읽힙니다.1


AI 칩 뉴스는 늘 “몇 페타플롭스”로 시작하지만, 진짜 승부처는 늘 “현실 운영비”에서 납니다. Maia 200은 그 현실을 정확히 겨냥한 칩입니다. 저정밀 추론, 메모리 대역폭, 이더넷 기반 확장, SDK 제공까지 한 묶음으로 가져오며 ‘토큰 경제’를 바꾸겠다는 선언에 가깝죠.

만약 여러분이 기업에서 Copilot류 기능을 붙이거나, 대규모 챗봇/에이전트를 운영할 계획이라면 앞으로는 모델 선택만큼이나 “어떤 인프라(그리고 어떤 칩) 위에서 돌리느냐”가 견적서를 좌우할 가능성이 큽니다. 당장 Maia 200을 내가 살 수는 없어도, 클라우드 비용 구조가 어떻게 재편되는지는 지금부터 체크해둘 가치가 있습니다.

참고

1Microsoft looks to drive down AI infra costs with Maia 200 • The Register

2Microsoft reveals second generation of its AI chip in effort to bolster cloud business

3Deep dive into the Maia 200 architecture | Microsoft Community Hub

4Microsoft Azure: AI accelerator Maia 200 aims to surpass Google TPU v7 | heise online

#마이크로소프트#Maia 200#AI 추론#저정밀 연산#데이터센터 인프라

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.

Tilnote 를 사용해 보세요.

키워드만 입력하면 나만의 학습 노트가 완성돼요.

책이나 강의 없이, AI로 위키 노트를 바로 만들어서 읽으세요.

콘텐츠를 만들 때도 사용해 보세요. AI가 리서치, 정리, 이미지까지 초안을 바로 만들어 드려요.