메인 콘텐츠로 건너뛰기

AI 트렌드 리서치 - 수익을 바꾸는 AI 컴퓨트 전략: 선점 계약·맞춤형 실리콘·데이터센터 제약을 활용한 ROI 극대화

수익을 바꾸는 AI 컴퓨트 전략: 선점 계약·맞춤형 실리콘·데이터센터 제약을 활용한 ROI 극대화

핵심 요약

  • 주요 발견사항

    • 컴퓨트 선점 계약(capacity pre-buys), 맞춤형 실리콘(custom silicon), 데이터센터 제약 관리가 2025–2030년 AI ROI의 세 축이다. 특히 Anthropic의 선점 전략은 규모·일정 리스크를 벤더로 전가하는 대표적 사례다. Broadcom은 2025년 9월에 발표한 100억 달러 규모의 미스터리 고객이 Anthropic임을 공개했고, 같은 해 4분기에 추가 110억 달러 주문이 더해져 총 210억 달러 규모로 확대됐다. 이 딜은 Ironwood(=TPU v7) 랙 단위 공급을 포함하며, Anthropic은 2026년에 100만 개 TPU와 1GW+의 신규 AI 용량에 접근할 것으로 전망된다12.

    • 전력·그리드·허가가 데이터센터 확장의 핵심 병목으로 부상. 미국 데이터센터는 2024년 전력 183TWh(국가 전력의 약 4.4%)를 사용했고, 2030년에는 5.7~12% 사이로 확대될 수 있다는 전망이 공존한다. 변압기·가스터빈 등 공급망 리드타임(2~7년)이 디지털 확장 속도를 따라가지 못하면서, 배터리 저장장치(BESS)·온사이트 발전·그리드 우회 조달이 보편화되고 있다78.

    • 비용/성능 곡선 이동의 양대 축은 맞춤형 실리콘과 모델 아키텍처 전환. SemiAnalysis 분석에 따르면 TPU v7(Ironwood)은 NVIDIA GB200 대비 FLOPs/대역폭은 낮을 수 있지만, 내부 배치 기준 TCO가 최대 44% 낮고, 외부 고객 가격 기준으로도 30% 수준 저렴할 수 있다. Anthropic이 TPU에서 40% 수준의 MFU(machine-fraction utilization, 실이용률)를 달성하면 GB300급 대비 학습 비용/TFLOP이 50~60% 낮아질 수 있다는 추정도 제시됐다2.

    • Mixture-of-Experts(MoE) 아키텍처가 추론 경제학을 바꾸고 있다. NVIDIA GB200 NVL72(랙 스케일 72-GPU, 1.4 엑사FLOPs, 30TB 공유 메모리)는 MoE 추론에서 최대 10배 성능 향상과 토큰당 비용 1/10 수준을 달성했다고 발표했다. NVLink 스위치 패브릭(130TB/s)과 TensorRT-LLM, SGLang, vLLM 등 소프트웨어 스택이 결합된 결과다4.

  • 실용적 가치

    • 비용/시간 최적화: 예약형 컴퓨트로 큐 대기시간을 단축하고, 모델 학습·출시 시점 앞당김으로 매출 기회를 선점. Anthropic 사례처럼 “랙 단위” 납품 계약은 일정 헤지에 유리하다1.

    • 성능 대비 비용: 지연·전력 민감 워크로드는 맞춤형 실리콘·모델 효율화(MoE 등)로 단가를 낮춘다. TPU v7의 TCO 우위, NVL72의 MoE 최적화는 서로 다른 경로로 $/token·$/infer를 끌어내린다24.

    • 운영 효율: 정량화·distillation·KV 캐시·RAG로 연산량을 줄여 전력·비용을 30~70%까지 절감하는 전략에 더해, BESS·온사이트 발전 등으로 피크 요금·정전 리스크를 줄이는 에너지 전략을 병행한다8.

  • 학습 가치

    • 컴퓨트 재무 감각(FinOps for AI): 예약·옵션·멀티클라우드 조합으로 비용·리스크를 통제. Broadcom의 730억 달러급 AI 제품 백로그 같은 벤더 측 공급 시그널을 시장지표로 모니터링하라2.

    • 가속기 포터빌리티: TPU/Trainium/GPU 간 프레임워크·컴파일러(XLA, ONNX Runtime, TensorRT) 활용법을 익혀 벤더 종속을 줄인다. AI 코드생성기의 보편화는 CUDA 중심 코드를 다른 런타임으로 이식하는 장벽도 낮춘다3.

    • 데이터·권리·거버넌스: IP 라이선스는 제품화 속도와 범위를 좌우한다. 컬럼비아대 트래커는 업계 리스크를 학습할 좋은 출발점이다.

  • 누가 주목해야 하는가

    • CIO/CTO/엔지니어링 리더, 프로덕트·전략·재무(FP&A/FinOps), ML 엔지니어/데이터 엔지니어/학생


왜 지금 중요한가?

  1. 비즈니스 기회

    • 선점 계약으로 희소한 컴퓨트를 확보하면 대기열 지연을 줄여 출시 시점을 앞당기고, 매출·시장점유율 상승으로 연결된다. Anthropic의 210억 달러급 선점은 “공급 제약을 벤더와 공유”하는 대표적 구조다12.

    • 맞춤형 실리콘은 특정 워크로드에서 TOPS/W, $/infer 우위를 만들어 반복 매출(API·구독)을 강화한다. TPU v7의 TCO 지표는 “성능=비용”의 등식을 재정의한다2.

  2. 기술 학습 가치

    • 멀티가속기·멀티클라우드 역량은 차별점이다. NVL72 같은 랙 스케일 시스템에서 MoE 추론을 10배 가속·1/10 비용으로 돌리는 사례는 “아키텍처+시스템 소프트웨어”가 경제학을 바꾸는 교과서적인 예다4.

  3. 기술 트렌드

    • 데이터센터 에너지 제약이 본격화. 2024년 미국 데이터센터는 전력의 4.4%를 사용했고, 2030년엔 5.7~12%까지 확대될 수 있다. 그리드·변압기·발전기 리드타임이 디지털 확장 속도를 못 따라가면서, BESS·온사이트 발전·그리드 우회 조달이 확산된다78.

  4. 경쟁 우위

    • 선구매+옵션 구조로 가격·공급 리스크를 헤지하고, IP 라이선스·규제 준수로 제품화 범위를 확장한 기업이 안정적 스케일링에 성공한다. “전력 제약이 칩 공급보다 큰 병목”이라는 시장 컨센서스 속에서, 전력 조달·부하관리 역량이 곧 경쟁력이다17.

  5. 개념적 중요성

    • AI 경쟁의 중심이 모델 알고리즘에서 컴퓨트·전력·공급망 설계로 이동한다. 하드웨어-소프트웨어 공동설계와 FinOps for AI가 핵심 문해력이다.


배경 및 현황

주요 사건 타임라인

  • Anthropic: Broadcom을 통해 Google TPU(Ironwood Racks)에 210억 달러 선구매(직전 분기 100억 달러 + 4분기 110억 달러 추가). “랙 단위(XPU)” 납품, 최대 100만 개 TPU 접근, 2026년 1GW+ AI 컴퓨팅 용량 추가 전망. Anthropic은 TPU·Trainium·NVIDIA GPU를 혼용하는 멀티클라우드 전략을 공식화했다12.

  • Broadcom: AI 제품 백로그 730억 달러(차기 6개 분기 출하 예상) 공개, 커스텀 XPU 고객 5곳 확보. 전용 패키징(XDSiP)·고성능 스위치(Tomahawk·Jericho)로 랙/네트워킹까지 수직 통합 공급 확대25.

  • 업계 전망: TSMC는 2026년 320만 개, 2027년 500만 개, 2028년 700만 개 TPU 생산을 수행할 것이란 관측이 제시. 50만 개 TPU 외부 판매는 최대 130억 달러 매출을 창출할 수 있다는 분석도 등장3.

  • NVIDIA: MoE 모델의 주류화를 전제로, GB200 NVL72(72 GPU, NVLink 스위치 패브릭, 130TB/s, 30TB 공유 메모리)에서 MoE 추론 10배 가속·토큰당 비용 1/10로 발표. TensorRT-LLM, SGLang, vLLM 등 오픈스택을 통한 대규모 배포 가능성 강조4.

  • 데이터센터 전력: 미국 데이터센터 전력 사용 183TWh(2024, 국가의 4.4%). 2030년 전력 점유율 5.7~12% 전망, 변압기(2~4년)·가스터빈(최대 7년) 리드타임 등 공급망 지연 이슈 확대7.

  • Disney–OpenAI, Columbia 트래커, Google Translate 베타 등 기타 사건은 초기 보고서 참조.

시장 현황

  • 컴퓨트 조달

    • 하이퍼스케일러와 대형 연구소가 장기·대규모 선구매로 파운드리·패키징·랙까지 공급망을 선점. Broadcom은 칩만이 아니라 랙 단위 공급을 표준화하고 있으며, 또한 10억 달러 규모 신규 XPU 고객 확보 사실을 공시했다1.

    • TPU 채택 확산: Meta, Cohere, Apple, SSI(일리야 서츠케버 설립) 등도 TPU 사용을 확인했고, Meta는 2027년 데이터센터에 TPU 도입을 검토 중이라는 보도가 나왔다2.

    • 분석가 컨센서스: TPUs는 NVIDIA GPU의 가장 신뢰할 대안으로 평가되며, “칩 공급보다 전력 제약이 핵심 병목”이라는 관측이 강화되고 있다1.

  • 데이터센터 건설·전력

    • 민간 데이터센터 건설 지출 연 410억 달러+ 수준(초기 보고서 참고). 그리드 연결과 발전/송전 인프라 리드타임은 2~7년으로, 데이터센터(18~24개월)와의 시계 차이가 구조적 타이밍 갭을 만든다7.

    • 운영자들은 BESS(배터리 저장장치), 온사이트 발전, 유연 수요(피크 시 저감) 등으로 “수동적 전력 소비자”에서 “능동적 에너지 기획자”로 전환 중8.

  • 제품화/아키텍처

    • MoE 모델이 개방형 상위권을 석권, 대규모 추론에서 성능·비용 효율을 동시에 추구. NVL72 같은 랙 스케일 시스템이 전문가 병렬(Expert Parallelism) 병목(메모리·통신)을 하드웨어로 완화해 상용화 장벽을 낮춘다4.

  • 현재 문제점과 한계

    • 컴퓨트 대기열과 전력 용량이 출시를 지연. 변압기·터빈·송전 공사 지연은 프로젝트 불확실성을 키운다7.

    • 벤더 종속과 포터빌리티 부족은 전략적 유연성을 제한.

    • 거버넌스·권리 리스크가 고객·파트너 확장을 제약.

핵심 개념 이해

  • Capacity pre-buy(선점 계약): 향후 사용할 컴퓨트 자원을 예약·장기확약으로 선점하는 방식(가격 변동·공급 위험 헤지). 랙 단위 납품(XPU 랙)은 일정 헤지의 강도가 높다1.

  • Custom silicon(맞춤형 실리콘): 특정 워크로드 최적화 칩. Ironwood(=TPU v7)는 고대역폭 메모리·인터커넥트와 결합해 TCO 우위를 목표화한다25.

  • MFU(machine-fraction utilization): 학습 중 실제 유효 계산에 사용되는 하드웨어 비율(높을수록 같은 장비로 더 많은 유효 계산 수행). MFU가 오르면 동일 플롭을 더 싸게 산출 가능2.

  • MoE(Mixture-of-Experts): 토큰마다 일부 전문가(서브네트)만 활성화해 효율 향상을 얻는 아키텍처. NVL72는 전문가 간 통신을 NVLink 패브릭으로 가속해 확장 병목을 풀어준다4.

  • PUE(Power Usage Effectiveness): 데이터센터 에너지 효율 지표(1에 가까울수록 효율적).


핵심 인사이트 (실행 + 학습)

1. 선점 계약은 ‘시간을 사는’ 금융상품이다: 큐 지연을 매출로 바꿔라

왜 중요한가?

  • 실용적 이유

    • 모델 학습·튜닝 지연은 출시 지연→매출 손실로 직결. 대형 선점은 대기열·일정 리스크를 벤더로 이전한다. Anthropic은 Broadcom과의 210억 달러급 Ironwood 랙 선점으로 2026년 100만 TPU·1GW+ 용량에 접근, 학습 파이프라인의 일정 불확실성을 줄였다12.

  • 학습적 이유

    • 예약/옵션 계약 구조, 멀티클라우드 분산, 포터빌리티는 필수 역량. 벤더의 출하 백로그(예: Broadcom 730억 달러)·리드타임 신호를 읽는 것이 FinOps의 핵심 리터러시다2.

어떻게 활용할 것인가?

  • 개발자

    • 멀티백엔드 트레이닝(Pytorch/XLA, JAX)으로 TPU/Trainium/GPU 병행 지원.

    • 스케줄러·큐 가시화로 병목 제거, 취소·실패율 관리.

  • 기업

    • 기본 용량은 장기 예약, 피크는 상향 옵션(전환권)으로 조합.

    • 멀티클라우드 성능·가격 벤치마크를 주기화하고 워크로드를 유동 배치.

    • 랙/팟 단위(예: 256칩 팟, 9,216칩 슈퍼팟)로 커밋해 납품·통합 위험 최소화5.

  • 학습자

    • 예약 인스턴스, 스팟, 커밋, egress 비용 등 FinOps 기초.

핵심 개념: 대기열 비용(기회비용), 옵션성(Optionality), 공급망 시그널(백로그·리드타임).

실제 사례: Anthropic–Broadcom Ironwood 랙 210억 달러 + 1GW+ 확충12.


2. 맞춤형 실리콘은 단가·지연·전력에서 승부 난다: 수익 구조를 재설계하라

왜 중요한가?

  • 실용적 이유

    • 지연·전력에 민감한 자율주행·엣지 추론은 전용 칩이 $/infer와 TOPS/W에서 유리. Ironwood(=TPU v7)는 세대 대비 전력효율·성능을 끌어올리고, 팟/슈퍼팟 구성으로 선형 확장을 설계했다(256칩 팟, 9,216칩 슈퍼팟)5.

    • TCO 상 우위: TPU v7은 내부 배치 시 GB200 동급 대비 TCO 44% 저렴, 외부 가격 기준 GB200 대비 약 30% 저렴(추정). MFU 40% 달성 시 GB300급 대비 TFLOP당 학습 비용 50~60%↓ 가능2.

  • 학습적 이유

    • 컴파일러·커널 최적화(XLA, TVM, Triton)·메모리 대역폭 설계 이해는 세대를 넘어 통한다.

어떻게 활용할 것인가?

  • 개발자

    • 그래프 최적화(연산 퓨전·메모리 할당·배치/시퀀스 길이 조절).

    • 엣지 배포: ONNX Runtime, TensorRT 기반 정량화(INT8/FP8)·성능 검증.

  • 기업

    • 워크로드 선별: 저지연·고빈도 추론 경로를 전용 칩·코프로세서로 분리.

    • 플랫폼 전략: 툴체인·SDK·MLOps와 묶어 DX(개발자 경험) 확보.

    • 네트워크: 대규모 클러스터는 이더넷 스위치(Tomahawk·Jericho)와 옵틱을 병행 고려5.

  • 학습자

    • 성능 측정: 지연, 처리량, 전력, 안정성 지표 설계·해석.

핵심 개념: ASIC vs GPU vs TPU(용도·생태계), TOPS/W(전력당 연산), 팟/슈퍼팟 확장.

실제 사례: Rivian의 차량용 맞춤형 실리콘(초기 보고서), TPU v7 랙/팟 설계·TCO 지표25.


3. 데이터센터는 전력·인력·허가의 삼중 병목: 효율을 먼저, 위치는 전략적으로

왜 중요한가?

  • 실용적 이유

    • 그리드 병목과 리드타임(변압기 2~4년, 가스터빈 최대 7년)이 일정·비용 리스크를 증폭. 데이터센터는 BESS·온사이트 발전·그리드 우회 조달로 전력 확보 전략을 다변화하고 있다78.

  • 학습적 이유

    • PUE/WUE·열관리·전력 계약 이해는 인프라·제품·재무 연결고리를 만든다.

어떻게 활용할 것인가?

  • 개발자

    • 정량화·distillation·KV 캐시·RAG로 연산량 30~70% 절감 목표화.

    • 프로파일링 습관화: 메모리 바운드 vs 연산 바운드 구분·병목 중심 최적화.

  • 기업

    • 입지 전략: 학습 클러스터는 저가·재생에너지 접근 리전, 추론 캐시는 사용자 근접 리전.

    • 에너지 전략: BESS·온사이트 발전(가스·연료전지·재생+저장)·수요반응으로 피크 요금·정전 위험 관리8.

    • 전력 전자: SiC·GaN(와이드밴드갭) 기반 전원장치로 효율 개선 검토6.

  • 학습자

    • 전력 단가·피크 요금·PUE의 사업적 의미 이해.

핵심 개념: PUE, 데이터 중력, 그리드 타이밍 갭(디지털 18~24개월 vs 전력 인프라 3~10년)7.

실제 사례: 미국 데이터센터 전력 183TWh(2024, 4.4%), 2030년 5.7~12% 전망. 운영자들의 BESS·온사이트 발전 투자 확대78.


4. 소프트웨어 레버리지: 코드는 AI가 쓰고 사람은 방향을 정한다

왜 중요한가?

  • 실용적 이유

    • 개발 생산성 향상은 컴퓨트 ROI의 가속기. 이식성 확보·최적화 자동화로 같은 컴퓨트에서도 더 많은 성과를 낼 수 있다.

  • 학습적 이유

    • AI 코드생성기를 팀 규범과 CI/CD에 통합하는 방법은 모든 엔지니어의 메타 스킬. CUDA 의존 코드를 TPU/다른 런타임으로 이식하는 장벽도 낮아지고 있다3.

어떻게 활용할 것인가?

  • 개발자: AI 페어프로그래밍, 테스트 자동 생성, 정적 분석·보안 스캔 표준화.

  • 기업: 코드 생성→리뷰→테스트→배포 자동화 비율을 높여 사이클 단축.

  • 학습자: 포터빌리티 샌드박스(동일 모델을 TPU/Trainium/GPU로 이식).

실제 사례: OpenAI의 Sora Android 앱 28일 개발(초기 보고서), AI 코드가 대부분 작성.


5. 데이터·IP가 없으면 컴퓨트는 공회전한다: 권리 확보가 곧 수익 가능성

  • 실용적 이유: 대형 IP 없이 생성 콘텐츠 상용화가 어렵다. Disney–OpenAI 사례처럼 공식 IP 접근은 시장 접근권을 넓힌다.

  • 학습적 이유: 데이터 거버넌스·콘텐츠 필터링·감사 가능한 파이프라인은 필수.

어떻게 활용할 것인가?

  • 개발자: 출처 추적·라이선스 메타데이터 관리, 안전·저작권 필터 기본 탑재.

  • 기업: 라이선스 전략(모델·앱·마케팅 일관 확장), 트래커로 분쟁 대비.

  • 학습자: 저작권·상표·퍼블리시티권, 데이터 사용권한 범위 학습.

실제 사례: Disney–OpenAI, Columbia 트래커(초기 보고서 참조).


기술 분석 (개발자/엔지니어/학습자용)

핵심 기술 요소

  • 멀티가속기 포터빌리티

    • 새 방식: XLA/JAX, PyTorch/XLA, ONNX Runtime로 백엔드 추상화.

    • 원리: 중간 표현(IR)로 컴파일, 백엔드별 최적화 패스 적용.

    • 효과: 올바른 퓨전·정량화·메모리 최적화로 1.2~2배+ 효율 개선.

    • 참고: AI 코드생성기 보편화로 CUDA 편중 코드를 다른 런타임으로 이식하는 장벽이 낮아지는 추세3.

  • 모델 효율화

    • 정량화(INT8/FP8), distillation, KV 캐시, RAG로 연산량·대역폭·메모리 절약.

    • MoE: 토큰마다 일부 전문가만 활성화. NVL72는 72 GPU를 NVLink 스위치로 묶어(130TB/s, 30TB 공유 메모리) 전문가 병렬의 메모리 압박과 all-to-all 통신 지연을 완화. Dynamo 프레임워크로 프리필·디코드 분리 서빙, NVFP4로 정확도 유지·성능 향상. TensorRT-LLM, SGLang, vLLM이 이를 지원4.

  • 데이터센터 효율

    • PUE 최적화(공조·열 회수·액침 냉각).

    • 전력 전자: SiC·GaN 기반 전원장치로 효율 개선6.

    • 에너지 전략: BESS로 피크 억제·정전 완충, 온사이트 발전·PPA로 전력 가격 리스크 헤지8.

  • 맞춤형 실리콘 스택

    • Ironwood(=TPU v7) 개요: 칩당 4,614 TFLOPS, 192GB, 7.2TB/s(공개 사양), v6e 대비 와트당 2배 수준 효율 개선(공개 자료 기준). 256칩 팟·9,216칩 슈퍼팟 구성 지원5.

    • 네트워킹: Tomahawk·Jericho 스위치, 광 인터커넥트로 대규모 클러스터 스케일링5.

    • TCO 관점: 내부 배치 44%↓, 외부 고객 30%↓(추정), MFU 40%시 GB300급 대비 TFLOP당 비용 50~60%↓ 가능2.

시작하기

  • 학습 출발점

    • PyTorch/XLA, JAX로 TPU 실습.

    • ONNX Runtime·TensorRT로 정량화·추론 최적화.

    • MoE 추론: vLLM·SGLang·TensorRT-LLM으로 소규모 실험부터 시작4.

    • FinOps for AI: 예약·옵션·비용 추적 학습.

  • 핵심 개념

    • TCO/TvO(총비용/총가치), IR/컴파일러 패스, 대기열·스케줄링, 데이터·IP 거버넌스.

  • 실무 적용 아이디어

    • 동일 LLM을 GPU vs TPU vs Trainium에서 추론해 지연·비용 비교 리포트 작성.

    • INT8 정량화 전/후 지연·정확도 차이 측정.

    • RAG 추가로 모델 크기 유지·축소하며 정확도 A/B 테스트 설계.

    • MoE 모델을 NVL72 적정 배치(전문가 수·라우팅 토큰)로 서빙해 토큰당 비용 측정4.


비즈니스 영향 (기업/창업자용)

수익 기회

  1. 예약·옵션형 컴퓨트 조달 서비스

    • 기회: 컴퓨트 브로커리지/관리로 중견기업의 예약·옵션 최적화 대행.

    • 근거: 벤더 백로그·리드타임 확대(예: Broadcom 730억 달러 백로그) 환경에서 고객의 “시점 헤지” 수요 증가2.

  2. 라이선스 기반 생성 콘텐츠 플랫폼

    • 기회: IP 라이선스 확보로 합법적 생성·유통.

  3. 엣지·임베디드 AI 솔루션

    • 기회: 맞춤형 실리콘+모델 최적화 묶음 제공(자율주행·리테일·제조 등).

  4. 에너지·전력 핀테크/옵스

    • 기회: 데이터센터 대상 BESS 금융, 온사이트 발전(PPA/열병합), 수요반응 운영 대행.

    • 배경: 전력·그리드 병목과 리드타임 장기화(2~7년), AI 데이터센터의 능동적 에너지 전략 확산78.

비용 절감 포인트

  • 개발 생산성: AI 코드생성기로 이식·최적화 자동화, 인력 효율 증대3.

  • 추론 단가: 정량화·distillation, 캐시·RAG로 토큰·연산량 절감. MoE+NVL72로 토큰당 비용 1/10까지 하향 가능(워크로드 의존)4.

  • 데이터센터 효율: PUE 0.1 개선만으로 대규모 클러스터에서 연 수백만 달러 절감(규모 의존). BESS로 피크 요금 회피8.

경쟁 전략

  • 선도 기업

    • 장기·대규모 선구매, 멀티가속기 운영, 맞춤형 실리콘으로 성능·원가의 경사 만들기.

    • IP 라이선스·거버넌스로 제품화 범위를 안전 확장.

    • 전력 전략 선제 구축(온사이트·BESS·PPA)으로 “전력 제약이 칩 제약을 앞선다”는 환경에서 우위 확보17.

  • 중소기업/스타트업

    • 옵션형 예약·멀티클라우드 포터빌리티로 유연성 확보.

    • 틈새(엣지/버티컬)에서 맞춤형 실리콘·효율화로 우위.

팀 역량 강화

  • 필수 학습: 포터빌리티(ONNX/XLA), 정량화·distillation, FinOps for AI, 데이터/IP 거버넌스, MoE 서빙 스택(SGLang/vLLM/TensorRT-LLM)4.

  • 교육 투자 ROI: 1~2분기 내 추론 단가·개발 속도 개선으로 회수 가능.


미래 전망 및 액션 플랜

3개월 내 예상되는 변화

  • 주요 클라우드의 예약·옵션 상품 다양화·차별화 심화.

  • MoE 기반 서비스(에이전틱 워크플로우 등)