메인 콘텐츠로 건너뛰기

OpenAI·Cerebras 100억달러 컴퓨팅 빅딜, 뭐가 그렇게 대단한가?

AI 답변 속도가 지금보다 10배 빨라진다고 상상해볼까요? 코드를 생성하고, 영상·이미지를 만들고, 에이전트가 장시간 “생각”해 주는데도 기다리는 시간은 거의 0에 수렴한다면요.

OpenAI가 바로 이런 미래를 위해 AI 칩 스타트업 Cerebras와 100억달러(약 13조원) 규모의 컴퓨팅 계약을 맺었습니다. Cerebras는 2028년까지 OpenAI에 750메가와트(MW) 규모의 컴퓨팅 파워를 제공하기로 했고, 이 모든 초거대 연산은 실시간에 가까운 AI 응답을 만들기 위해 사용됩니다123.

이 글에서는

  • 이 계약이 구체적으로 어떤 내용인지

  • 왜 OpenAI가 ‘또 다른 칩 회사’를 선택했는지

  • Cerebras가 어떤 기술로 엔비디아에 도전장을 내밀었는지

  • 투자·산업·개발자에게 어떤 의미가 있는지

를 최대한 쉽게 풀어보겠습니다.


1. OpenAI–Cerebras 100억달러 빅딜, 핵심만 정리

이번 계약을 한 줄로 요약하면 이렇습니다.

“OpenAI가 ChatGPT 같은 서비스를 더 빠르고, 더 많이, 더 싸게 돌리기 위해 엔비디아 외에 새로운 ‘초고속 AI 엔진’을 정기 구독했다.”

조금만 더 뜯어보면 중요한 포인트가 몇 가지 있습니다.

첫째, 계약 규모와 기간입니다.
OpenAI는 Cerebras와 2026년부터 2028년까지 750MW의 컴퓨트(연산 인프라)를 쓰는 계약을 맺었고, 시장에서는 이 딜을 100억달러 이상으로 평가합니다123. 3년 동안 작은 데이터센터 여러 개를 통째로 빌리는 수준의 물량입니다.

둘째, 목적은 “속도”입니다.
OpenAI는 이번 Cerebras 시스템이 “지금보다 더 오래 생각해야 하는 질문들을 훨씬 빠르게 처리할 것”이라고 설명합니다23. Cerebras CEO 앤드루 펠드먼은 여기서 한 발 더 나가 “브로드밴드가 인터넷을 바꿨듯, 실시간 추론(real-time inference)이 AI를 바꿀 것”이라고 말했습니다23.

즉, 이 계약은 단순히 서버를 더 늘리는 수준이 아니라, AI의 체감 속도를 바꾸려는 시도입니다.

셋째, OpenAI의 ‘멀티 칩 전략’의 연장선입니다.
OpenAI 내부 컴퓨트 인프라 책임자 사친 카티는 “우리는 각 워크로드에 가장 잘 맞는 시스템을 조합하는 포트폴리오 전략을 쓴다”고 강조합니다123. 기존에는 엔비디아·AMD GPU 위주였다면, 이제 여기에 “초저지연 추론 전용” Cerebras 칩이 추가되는 셈입니다.

정리하자면,

  • 750MW 규모의 컴퓨트

  • 2028년까지 멀티 연도 계약

  • 목표는 ‘초저지연, 실시간 AI’

  • OpenAI의 GPU 의존도 분산 및 성능·비용 최적화

이 네 가지가 이번 딜의 골자입니다.


2. Cerebras는 어떤 회사길래 엔비디아에 도전장을?

“또 다른 칩 스타트업이겠지?”라고 생각하면, Cerebras를 반만 보는 겁니다. 이 회사의 핵심은 ‘웨이퍼 스케일(wafer-scale) 프로세서’라는 아주 과감한 아이디어입니다.

일반 칩은 둥근 웨이퍼를 잘게 나눠 여러 개의 칩으로 만듭니다.
Cerebras는 “그냥 웨이퍼 전체를 한 개의 거대한 칩으로 쓰자”라고 생각했습니다.

그 결과물이 WSE-3(Wafer Scale Engine 3)입니다. 이 칩은 손바닥이 아니라 “디너 플레이트(저녁 식사 접시)” 크기라고 불릴 정도로 큽니다456.

몇 가지 특징만 뽑아보면 이렇습니다456.

  • 4조 개 이상의 트랜지스터, 약 90만 개의 AI 전용 코어

  • GPU에서 쓰는 HBM(고대역폭 메모리) 대신, 칩 안에 40GB 이상 SRAM 내장

  • 메모리 대역폭이 최신 GPU보다 수천 배 수준(페타바이트/s 단위)

SRAM은 GPU에 붙는 HBM보다 훨씬 빠른 대신 비싸고 공간을 많이 차지합니다. Cerebras는 “어차피 AI 추론(inference)은 메모리 읽고 쓰는 속도가 병목이니, 비싸더라도 가장 빠른 메모리를 칩 안에 때려 넣자”라는 쪽에 올인한 구조입니다.

이 덕분에 Cerebras는 “GPU 클러스터보다 추론 속도가 훨씬 빠르다”고 자신 있게 주장합니다234. 예를 들어 OpenAI의 오픈 가중치 모델(gpt-oss 120B)을 Cerebras 칩에서 돌릴 경우, 토큰 생성 속도가 GPU 기반 경쟁 서비스보다 3배 이상 빠르다고 회사 측은 강조합니다4.

물론 한계도 있습니다.

SRAM이 차지하는 면적이 너무 크다 보니, 칩 크기에 비해 메모리 용량은 ‘생각만큼’ 크지 않습니다. 그 결과 대형 모델을 돌리려면 여전히 여러 개의 칩을 병렬로 묶어야 하고, 칩 하나당 소비전력도 20kW 안팎으로 상당히 높은 편입니다4.

그래도 “한 번 올라가면 폭발적인 속도를 내는 초고속 트랙” 같은 역할에는 최적화된 구조인 셈입니다.


3. 왜 OpenAI는 엔비디아 대신 Cerebras를 택했나?

정확히 말하면 “대신”이 아니라 “추가”입니다. 그럼에도 OpenAI 입장에서 Cerebras를 선택한 이유는 꽤 분명합니다.

1) 엔비디아 의존도 줄이기

지금까지 AI 인프라의 기본 단위는 엔비디아 GPU였습니다.
문제는 전 세계가 한꺼번에 엔비디아 GPU를 찾으면서, 물량 확보와 가격, 전력·데이터센터 설계까지 모든 게 엔비디아의 스케줄과 조건에 묶인다는 점입니다.

Cerebras와 100억달러짜리 장기 계약을 맺으면서, OpenAI는 GPU 외에 “또 하나의 메이저 옵션”을 확보했습니다. Cerebras 입장에서도 아부다비의 G42에 과도하게 의존하던 매출 구조(2024년 상반기 기준 매출의 80% 이상)156에서 벗어나게 되니, 서로에게 매우 전략적인 딜입니다1.

2) “실시간 AI” 시대를 대비한 초저지연 추론

지금의 ChatGPT도 빠르지만, 고난도 코드 생성, 긴 문서 분석, 복잡한 에이전트 작업을 요청해 보면 아직도 수 초~수십 초씩 기다리는 일이 많습니다.

OpenAI가 이번 계약에서 가장 강조한 것은 “실시간에 가까운 응답 속도”입니다.

  • 사친 카티는 Cerebras를 “전용 저지연 추론 솔루션”이라고 표현했고123

  • OpenAI는 “빠른 응답, 자연스러운 상호작용, 실시간 AI 대규모 확장의 기반”이라고 정의했습니다123.

  • 펠드먼은 “실시간 추론이 AI를 변혁한다”고 단언했죠23.

즉 이 딜은,

  • 초고속 토큰 생성

  • 지연시간 감소

  • 에이전트가 오래, 깊게 생각해도 사용자 경험은 ‘대화하듯’ 유지

를 목표로 하는 투자라고 볼 수 있습니다.

3) 컴퓨트 포트폴리오 전략

OpenAI는 이미 자사 오픈 가중치 모델(gpt-oss)을 엔비디아, AMD, Cerebras 칩 어디서나 잘 돌아가도록 조정해 왔습니다12. 오랜 기간 기술 검증을 해온 셈입니다.

그 위에서 “어떤 작업은 GPU, 어떤 작업은 Cerebras” 식으로 워크로드를 분리하는 전략을 취할 수 있습니다.

예를 들어:

  • 학습(Training): 여전히 엔비디아·AMD GPU가 유리

  • 추론(Inference)

    • 복잡한 전처리·멀티모달 처리: GPU

    • 토큰 생성처럼 메모리 대역폭이 중요하고, 지연시간이 중요한 구간: Cerebras

이렇게 분업하는 ‘디스어그리게이티드(disaggregated) 추론’ 구조도 업계에서 점점 현실적인 옵션으로 거론되고 있습니다4.


4. Cerebras IPO, AI·반도체 투자 판도까지 흔든다

이번 계약은 OpenAI만의 이야기가 아닙니다. Cerebras의 성장 스토리와 IPO(상장) 계획, 그리고 글로벌 AI 인프라 구도까지 모두 얽혀 있습니다.

IPO를 앞둔 Cerebras, “기술 호기심”에서 “핵심 인프라”로

Cerebras는 2024년에 한 차례 IPO를 신청했다가, 재무 정보·전략 업데이트 등을 이유로 서류를 일단 철회한 바 있습니다1. 이후 2025~2026년 사이에 사업이 크게 성장했고, 현재는 약 220억달러 밸류에이션 기준으로 10억달러 추가 자금 유치를 논의 중인 것으로 알려졌습니다2356.

중요한 포인트는 두 가지입니다.

첫째, 매출 구조 다변화입니다.
과거에는 G42가 매출의 절대 다수를 차지해 “한 고객 의존” 리스크가 컸습니다156.

지금은

  • OpenAI 100억달러급 장기 계약

  • IBM, Cognition, Hugging Face, 미 에너지부 등 다양한 고객156

으로 포트폴리오가 넓어졌습니다. 투자자 입장에서 보던 가장 큰 리스크를 상당 부분 해소한 셈입니다.

둘째, ‘Inference Flip’과 맞물린 타이밍입니다.
업계에서는 2026년 전후를 “추론(Inference) 지출이 학습(Training) 지출을 추월하는 시점”으로 봅니다56. Cerebras는 바로 이 추론 시장을 노리고 태어난 아키텍처이기 때문에, 시장 트렌드와 모멘텀이 정확히 맞아떨어지는 상황입니다.

엔비디아, AMD, 그리고 기타 AI 칩 스타트업에 미치는 영향

엔비디아 입장에서는 아직 “왕좌”를 빼앗길 위기는 아닙니다. 여전히 CUDA 생태계와 학습 영역에서의 압도적 우위가 있기 때문입니다. 다만 Cerebras와 같은 구조가 상장 이후 충분한 자본을 확보하면, GPU 기반 구조만으로는 대응이 어려운 초저지연 추론 영역에서 본격적으로 경쟁이 시작될 수 있습니다56.

이미 엔비디아는 추론 성능을 강화하기 위해 Groq를 200억달러에 인수하는 등 움직이고 있습니다156. AMD도 HBM4 기반의 차세대 MI 시리즈로 메모리 대역폭 격차를 줄이려 하고 있고요56.

가장 난처한 쪽은 중소 AI 칩 스타트업들입니다.
상위 티어(엔비디아·AMD·Cerebras)가 빅테크와 클라우드, 국가 프로젝트까지 선점해 버리면, 나머지 회사들은 인수합병(M&A) 대상이 되거나 틈새 시장으로 밀려날 가능성이 큽니다56. 이미 인텔이 SambaNova를 인수하는 등 이런 흐름은 시작됐습니다56.


5. 우리에게 어떤 의미인가? 개발자·기업·투자 관점에서

뉴스만 보면 “또 큰 돈이 오가는구나” 정도로 느껴질 수 있습니다. 하지만 이 딜은 실제로 우리가 AI를 쓰는 방식에도 꽤 직접적인 영향을 줄 수 있습니다.

1) 개발자·서비스 기획자 관점

실시간에 가까운 추론이 가능해진다는 건, 만들 수 있는 서비스의 종류가 바뀐다는 뜻입니다.

  • 실시간 코딩 파트너: IDE에서 타이핑할 때마다 AI가 거의 딜레이 없이 코드, 테스트, 리팩토링 제안

  • 초저지연 에이전트: 고객 상담, 운영 자동화 에이전트가 수십 단계의 추론을 하면서도 사용자는 “대화 끊김”을 거의 느끼지 않음

  • 라이브 콘텐츠 생성: 회의 중 실시간 요약·번역·의사결정 추천, 방송·스트리밍 중 실시간 편집/자막/클립 생성

기존에는 “이런 서비스 만들면 좋겠다”가, 지연시간 때문에 콘셉트 수준에 머물거나 UX가 거칠었던 경우가 많습니다. Cerebras 같은 인프라가 상용화되면, 이런 아이디어들이 실제로 구현 가능한 옵션으로 올라오게 됩니다.

2) 기업·스타트업 관점

OpenAI가 추론 비용을 더 낮추고 속도를 더 끌어올릴 수 있다면, API 가격 정책에도 영향을 줄 수 있습니다.

  • 토큰 단가 인하

  • 고급 모델(긴 컨텍스트, 고난도 추론)도 실시간에 가까운 SLA로 제공

  • “레이턴시 기반 요금제” 같은 새로운 과금 구조 등장 가능

자연어 인터페이스, AI 에이전트, 실시간 데이터 분석에 사업을 걸고 있는 스타트업이라면, 1~2년 뒤 사용 가능한 인프라 조건이 지금과 꽤 달라질 수 있다고 보고 준비하는 게 좋습니다.

예를 들어 지금은 UX를 “몇 초 기다려도 되는 단발성 작업” 중심으로 설계했다면, 앞으로는 “항상 켜져 있고, 사용자가 타이핑과 동시에 반응하는 동시성 인터랙션” 쪽으로 패러다임을 바꿀 수 있습니다.

3) 투자·거시 산업 관점

AI 인프라 투자의 포커스가 “GPU 몇 장 사느냐”에서 “얼마나 효율적으로, 빠르게 추론을 돌리느냐”로 이동하고 있다는 신호이기도 합니다.

  • 비용 단위가 “GPU 몇 대”에서 “토큰당 비용, 요청당 지연시간”으로 재정의

  • 데이터센터 설계도 GPU 열·전력 관리 중심에서, 초고밀도·액체 냉각·SRAM 위주의 다른 형태로 다변화

  • 국가 단위 ‘소버린 AI’ 프로젝트에서 GPU 대규모 클러스터 대신 Cerebras식 ‘AI-in-a-box’를 도입하는 사례 증가56

AI 관련 투자를 고려하는 사람이라면, 이제 “훈련(Training)만 잘하면 되느냐”가 아니라 “추론(Inference)을 얼마나 효율적으로 할 수 있느냐”를 같이 보는 시각이 필요해지는 시점입니다.


시사점: “GPU 시대 끝”이 아니라, “AI 인프라 다원화의 시작”

OpenAI와 Cerebras의 100억달러 계약을 두고 “엔비디아 시대의 끝”처럼 과장하는 해석도 있지만, 현실에 조금 더 가까운 해석은 이렇습니다.

  • 엔비디아는 여전히 학습·생태계의 절대 강자

  • Cerebras는 추론, 특히 실시간·초고속 영역에서 강력한 대안

  • OpenAI는 이 둘을 포함한 다양한 칩·인프라를 조합해 “최적의 원가·속도·품질”을 맞추는 쪽으로 진화

즉, 하나의 왕국이 무너지는 것이 아니라, 여러 왕국이 공존하는 “멀티 아키텍처 시대”가 본격적으로 열린 셈입니다.

우리 입장에서 중요한 질문은 결국 두 가지입니다.

  1. “이제 가능해질 속도와 성능을 전제로, 나는 어떤 서비스·제품·경험을 설계할 수 있을까?”

  2. “AI를 쓸 때, 비용·속도·품질 중 무엇을 우선순위로 두고 전략을 세울 것인가?”

지금은 그 질문에 답을 미리 준비할 수 있는 드문 시점입니다.
앞으로 2~3년 사이, AI의 체감 속도가 한 번 더 “브로드밴드급 점프”를 할 가능성이 큽니다. 이번 OpenAI–Cerebras 빅딜은 그 점프의 시동을 거는 순간으로 기억될 가능성이 높습니다.


참고

1Cerebras scores OpenAI deal worth over $10 billion ahead of AI chipmaker’s IPO

2OpenAI announces $10B Cerebras deal for 750MW compute

3OpenAI to serve up ChatGPT on Cerebras’ AI dinner plates in $10B+ deal

#AI뉴스#인공지능

이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.