
엔비디아 GPU vs 구글·아마존 AI 칩, 뭐가 다른가? 비용·성능 비교


AI 열풍이 본격화된 이후, 엔비디아 GPU라는 단어는 거의 AI와 동의어처럼 쓰이고 있습니다. 하지만 구글, 아마존, 메타, 마이크로소프트 같은 하이퍼스케일러는 이미 자체 AI 칩(ASIC)을 만들며 다른 길을 걷고 있습니다.
이 글에서는
엔비디아 GPU가 왜 AI의 중심이 됐는지
구글 TPU, AWS Trainium/Inferentia 같은 맞춤형 AI 칩이 어떤 지점에서 GPU를 대체하는지
엣지용 NPU, FPGA까지 포함한 AI 칩 전체 지형도
그리고 이 경쟁 구도가 어디로 향하고 있는지
를 차분하게 정리합니다.
GPU가 AI의 중심이 된 배경: 엔비디아의 롱런 스토리
엔비디아는 원래 게임용 그래픽 카드 회사였습니다. 하지만 지금은 생성형 AI의 훈련과 추론을 모두 책임지는 핵심 인프라 기업이 됐습니다.
그 중심에는 GPU의 병렬 연산 능력이 있습니다. 이미지나 3D 장면을 그리려면 수많은 픽셀을 거의 동시에 계산해야 하는데, 이 구조가 딥러닝의 행렬 연산과 매우 잘 맞아떨어졌습니다.
2012년, 이미지 인식 대회에서 기존 방식을 압도했던 AlexNet은 "GPU를 딥러닝에 쓰면 어떻게 되는지"를 보여준 첫 사례였습니다. 연구진은 GPU 내부의 병렬 계산 구조를 그대로 꺼내와 신경망 학습에 사용했고, 이때부터 "AI = GPU"라는 공식이 굳어졌습니다.
GPU는
수천 개의 비교적 단순한 코어를 가지고 있고
대규모 행렬 곱, 텐서 연산을 동시에 처리하는 데 특화돼 있으며
훈련(training)과 추론(inference) 모두에 쓸 수 있습니다.
반면 CPU는 적은 수의 강력한 코어로, 일반적인 순차 작업을 처리하는 데 최적화되어 있습니다. 그래서 실제 AI 서버 랙에서는 CPU + GPU 조합이 일반적입니다. 엔비디아의 Grace-Blackwell 시스템도 이 구조를 따릅니다.
이렇게 GPU가 게임을 넘어 AI로 확장되면서, 엔비디아는 한때 시가총액 5조 달러를 찍는 등 전례 없는 평가를 받았습니다. 최근에는 한 해에 Blackwell GPU 600만 개를 출하했다는 점도 주목할 만합니다.
엔비디아 Blackwell·AMD Instinct: GPU 생태계의 현재
엔비디아의 최신 AI 서버는 72개의 Blackwell GPU를 하나의 거대한 GPU처럼 묶어 쓰는 구조를 채택합니다. 이런 랙 하나의 가격은 약 300만 달러 수준으로, 고성능 AI 훈련/추론을 위한 일종의 표준 장비가 되고 있습니다. 엔비디아에 따르면 이 랙을 주당 1000대씩 출하하고 있습니다.
GPU 비즈니스의 특징은 단순히 칩만 파는 것이 아니라 전체 시스템과 소프트웨어 생태계까지 묶어 공급한다는 점입니다. 엔비디아는 CUDA라는 독점 소프트웨어 플랫폼 위에 최적화된 라이브러리, SDK, 도구 체인을 쌓아 올렸고, 덕분에 개발자 생태계를 사실상 선점한 상태입니다.
반대편에는 AMD Instinct GPU 라인이 있습니다. AMD는 오픈소스 친화적인 소프트웨어 스택을 앞세우며 엔비디아와 다른 노선을 택하고 있습니다. OpenAI, Oracle 등이 AMD GPU를 채택하며 시장 점유율을 조금씩 끌어올리고 있지만, 소프트웨어·개발 도구 측면에선 아직 CUDA가 주도권을 쥐고 있는 구조입니다.
엔비디아는 이미 다음 세대인 Rubin GPU도 예고한 상태로, "칩이 아니라 시스템 전체를 판다"는 전략을 강화하며 데이터센터 지배력을 확대하고 있습니다.
ASIC의 부상: 구글 TPU와 AWS Trainium·Inferentia의 전략
GPU가 범용 병렬 연산기라면, ASIC(Application Specific Integrated Circuit)은 특정 AI 작업에만 맞춰 설계된 전용 칩입니다.
특징은 명확합니다.
장점: 특정 연산(예: 특정 형태의 행렬 곱)에 맞춰 회로가 고정되어 있어, 전력 효율·성능·비용 측면에서 훨씬 유리합니다.
단점: 실리콘에 하드코딩된 구조라 한 번 찍어내면 유연하게 수정하기 어렵고, 다른 알고리즘으로 전환할 때 제약이 큽니다.
엔비디아 GPU 한 개가 4만 달러 이상에 거래되고 구하기도 쉽지 않은 상황에서, 하이퍼스케일러는 두 가지 선택지를 놓고 계산하게 됩니다.
그냥 비싸도 GPU를 사서 쓴다.
수십억~수백억 단위의 초기 비용을 들여 자체 ASIC을 만들고, 장기적으로 전력·운영 비용을 절감한다.
스타트업 입장에서는 2번이 사실상 불가능에 가깝습니다. ASIC을 제대로 설계·양산하려면 최소 수천만~수억 달러 규모의 투자와 전문 인력이 필요하기 때문입니다.
하지만 구글, 아마존 같은 거대 클라우드 사업자에게는 이야기가 다릅니다. 이들은
전력 효율 개선
엔비디아 의존도 완화
AI 서비스 단가 인하 라는 이유로 자체 ASIC 투자를 감행하고 있습니다.
다만 이들조차도 GPU를 완전히 버리는 전략은 아니며, 엔비디아·AMD와 긴밀히 협력하면서 자체 칩 + GPU 혼합 구조를 택하고 있습니다.
구글 TPU, AWS Trainium·Inferentia: 아키텍처와 사업 방향 비교
구글은 2015년, TPU(Tensor Processing Unit)라는 이름으로 최초의 대형 AI 전용 ASIC을 선보였습니다. 이 칩은 이후 2017년에 등장한 Transformer 아키텍처의 기반이 되는 인프라 역할을 했고, 현재 대부분의 대형 언어 모델이 이 구조를 바탕으로 합니다.
최근 구글은 7세대 TPU 'Ironwood'를 공개하고, Anthropic과 함께 최대 100만 개 TPU로 LLM 'Claude'를 학습시키는 대형 계약을 진행하고 있습니다. 일부 전문가들은 성능 면에서 TPU가 엔비디아 GPU에 필적하거나 앞선다는 평가도 내립니다. 다만 지금까지는 대부분 구글 내부 서비스에 우선 사용되어 외부 개발자가 직접 쓰기는 제한적이었습니다. 향후 TPU를 더 개방할 가능성에 대한 관측이 계속 나오고 있습니다.
아마존 웹서비스(AWS)는 2015년 Annapurna Labs 인수 후 본격적으로 자체 칩 개발을 시작했습니다.
2018년: 추론용 Inferentia
2022년: 학습·추론 겸용 Trainium 출시, 현재는 3세대에 근접
아키텍처 관점에서 AWS는 Trainium을 "여러 개의 작은 텐서 엔진이 모인 작업장 묶음"처럼 설계했고, 구글 TPU는 "하나의 거대한 컨베이어 벨트"처럼 고정된 그리드 구조에 가깝게 설계한 것으로 설명됩니다.
AWS 내부 평가에 따르면, Trainium은 AWS 내 다른 하드웨어 대비 평균 30~40% 수준의 가격 대비 성능 개선을 제공하는 것으로 알려져 있습니다.
인디애나 북부에 위치한 대규모 AI 데이터센터에서는 Anthropic이 Trainium2 칩 50만 개 규모로 모델을 학습하는 환경이 구축되어 있습니다. 흥미로운 점은, 이 특정 데이터센터에는 엔비디아 GPU가 전혀 들어가지 않았다는 점입니다. 반면 AWS의 다른 데이터센터들에는 여전히 대량의 엔비디아 GPU가 도입되고 있고, OpenAI 같은 주요 고객 역시 AWS 위에서 엔비디아 GPU를 사용합니다.
이 말은, "엔비디아를 대체한다"기보다, "워크로드에 따라 ASIC과 GPU를 나눠 쓰는 구조"로 가고 있음을 의미합니다.
Broadcom·Marvell 등 파트너 생태계: ASIC 설계의 보이지 않는 허리
자체 ASIC을 만든다고 해서, 구글이나 메타가 모든 것을 직접 설계·제조하는 것은 아닙니다. 이 과정에는 Broadcom, Marvell 같은 칩 설계·IP 업체가 깊게 관여합니다.
대부분의 하이퍼스케일러는
내부에 전체 실리콘 팀을 꾸리는 대신
칩 설계 회사와 협력해 IP, 노하우, 네트워킹 기술을 공급받고
자신들의 요구에 맞는 커스텀 칩을 만든 뒤
최종 제조는 TSMC 같은 파운드리에 맡깁니다.
Broadcom은 특히
구글 TPU
메타의 훈련·추론 가속기(2023 출시)
2026년부터 시작될 OpenAI의 자체 ASIC 프로젝트
등에 깊이 관여하며 AI ASIC 생태계 최대 수혜 기업 중 하나로 평가받고 있습니다. 일부 분석에서는 Broadcom이 ASIC 파트너 시장의 70~80%를 가져갈 것으로 예상하고, 향후 연평균 두 자릿수 중반 성장률을 전망하고 있습니다.
엣지 AI 칩: NPU, 스마트폰·PC·자동차로 확산되는 AI
지금까지는 주로 데이터센터 기준의 칩을 다뤘지만, AI는 점점 단말기 내부(on-device)로 내려오는 중입니다.
이 흐름의 핵심은 NPU(Neural Processing Unit)입니다. NPU는 스마트폰이나 노트북에 들어가는 SoC(System on a Chip) 내부에 통합된 전용 AI 연산 모듈입니다.
특징은 다음과 같습니다.
단말에서 직접 추론 수행 → 클라우드로 데이터를 보내지 않아도 됨
지연 시간 감소 → 반응 속도 향상
개인 데이터가 단말을 벗어나지 않음 → 프라이버시 측면에서 유리
칩 면적과 비용이 데이터센터용 대비 매우 작음
주요 플레이어는
PC·노트북: Qualcomm, Intel, AMD
MacBook: 애플 M 시리즈 칩의 Neural Engine
스마트폰:
iPhone: A 시리즈 칩의 신경망 엔진
안드로이드: Qualcomm Snapdragon 내 NPU
삼성: Galaxy용 자체 NPU
이러한 NPU는 스마트폰·PC 뿐 아니라 차량, 로봇, 카메라, 스마트홈 기기 등에도 확산되고 있으며, NXP, 엔비디아 등 여러 기업이 이 시장에 참여하고 있습니다.
현재는 데이터센터 AI 칩에 투자와 관심이 집중되어 있지만, 장기적으로는 엣지 디바이스에 탑재된 AI 연산 능력이 훨씬 더 폭넓은 수요를 만들 가능성이 큽니다.
FPGA: 유연성과 비용 사이에서 선택되는 또 다른 AI 칩
AI 칩 카테고리에서 자주 언급되는 또 하나의 축은 FPGA(Field Programmable Gate Array)입니다.
FPGA는
칩이 생산된 이후에도 소프트웨어로 회로 구성을 바꿀 수 있는 구조를 가진 반가공 칩에 가깝습니다.
신호 처리, 네트워킹, 커스텀 로직 등 다양한 분야에서 쓰이며, AI 가속에도 활용 가능합니다.
그러나 AI 관점에서 보면
NPUs나 ASIC 대비 전력 효율·성능이 떨어지는 편입니다.
대신 유연성이 높고,
완전한 ASIC을 설계할 여력이 없거나, 요구사항이 자주 바뀌는 경우에 선택지로 올라옵니다.
소규모·중간 규모 운영에서는 FPGA가 합리적인 선택일 수 있지만, 수천·수만 개 단위로 대규모 운영을 할 경우에는 결국 전용 ASIC이 더 저렴해지는 구조가 됩니다.
기업 측면에서는
AMD가 2022년 Xilinx를 490억 달러에 인수하며 FPGA 최대 업체가 되었고,
인텔은 2015년 Altera를 167억 달러에 인수하며 2위 자리를 유지하고 있습니다.
FPGA는 "AI만을 위한 칩"이라기보다는, AI 포함 여러 특수 워크로드를 빠르게 시도·검증하는 데 쓰이는 전략적 중간 단계에 가깝습니다.
제조 관점에서의 AI 칩: TSMC, 미국·중국 경쟁, 에너지 이슈
설계 회사가 아무리 늘어나도, 실제로 칩을 찍어낼 수 있는 파운드리는 매우 제한적입니다. 현 시점에서 고급 공정의 핵심은 TSMC입니다.
엔비디아, 구글, 아마존 등 주요 AI 칩 플레이어 대부분이 TSMC에 제조를 위탁하고 있습니다. 이 때문에 AI 칩 경쟁은 곧 TSMC 공정과 생산 능력을 두고 벌이는 경쟁이기도 합니다.
TSMC는 오랫동안 대만에 생산 거점을 집중해 왔고, 이는 지정학적 리스크로 계속 거론돼 왔습니다. 이를 완화하기 위해 미국은 CHIPS법 등을 통해 TSMC의 애리조나 대형 팹 건설을 지원했고, 최근 첫 공장 내부가 공개되기도 했습니다.
현황을 보면
애플: 일부 칩 생산을 TSMC 애리조나로 이전 예정이지만, 최신 iPhone용 A19 Pro 칩(3nm 공정)은 아직 대만에서만 제조 가능
엔비디아 Blackwell: TSMC 4nm 공정으로 제작되며, 이 공정은 애리조나 공장에서도 양산에 들어간 상태
한편, 미국 내에서는 인텔도
파운드리 사업을 재정비하고
애리조나 신규 공장에서 18A급 고급 공정 양산을 준비 중입니다.
이는 AI 수요를 계기로 실리콘 밸리 주변에 다시 실리콘 제조가 돌아오는 흐름으로 해석할 수 있습니다.
중국 측에서는 화웨이, 바이트댄스, 알리바바 등이 자체 ASIC을 설계하고 있지만, 최첨단 장비와 칩에 대한 수출 통제 때문에 엔비디아 Blackwell급에 해당하는 칩에는 접근이 제한적입니다.
또 하나 무시하기 어려운 변수는 전력 인프라입니다. 거대 AI 데이터센터를 짓기 위해서는 칩뿐 아니라 막대한 전력 공급이 필수입니다. 미국이 AI 리더십을 유지하기 위해서는 칩 설계·제조뿐 아니라 전력망·에너지 인프라 확충이 병행되어야 한다는 지적이 나옵니다. 반면 중국은 이 부분에서 상대적으로 발 빠르게 움직이고 있다는 평가도 있습니다.
엔비디아 vs 하이퍼스케일러 ASIC: 향후 구도에 대한 해석
현재 AI 칩 시장의 주도권은 여전히 엔비디아 GPU가 쥐고 있습니다. 그 배경에는
장기간 축적된 GPU 하드웨어 라인업
CUDA 중심의 소프트웨어·라이브러리·개발자 생태계
시스템 단위 공급 능력(서버 랙, 네트워킹, SW 통합)
등이 복합적으로 작용했습니다. 단순히 좋은 칩을 만드는 것만으로는 따라잡기 어려운 구조가 된 상태입니다.
그럼에도 불구하고, 시장 자체가 너무 빠르게, 너무 크게 성장하고 있기 때문에 새로운 플레이어가 들어올 공간은 충분합니다. 구글 TPU, AWS Trainium/Inferentia, 메타·마이크로소프트·OpenAI의 ASIC 계획은 모두 "엔비디아를 완전히 대체한다"기보다는, "특정 워크로드에서 엔비디아 비중을 줄인다"에 가깝습니다.
이 과정에서 예상되는 현실적 제약과 방향성은 다음과 같습니다.
AI 모델이 계속 대형화되면, 훈련·추론 모두에서 최고 성능 GPU 수요는 유지될 가능성이 큽니다.
반면, 충분히 안정화된 모델의 대량 추론 워크로드는 점점 ASIC·NPU 등 더 효율적인 칩으로 이동하게 될 가능성이 높습니다.
클라우드 업체 입장에서는
핵심 서비스는 자체 ASIC으로 비용을 낮추고
고객용 범용 리소스는 GPU와 FPGA, 일부 ASIC 혼합 구조로 제공하는 다층적인 전략이 합리적으로 보입니다.
제조 측면에서는 TSMC 의존도, 지정학 리스크, 에너지 인프라가 AI 칩 경쟁의 또 다른 핵심 축으로 작동할 가능성이 큽니다.
엔비디아의 우위는 단기간에 무너지기 어렵지만, 시장 규모가 커지는 만큼 자체 칩을 가진 클라우드 사업자의 비중도 계속 커질 수밖에 없습니다. 결과적으로 AI 칩 시장은
엔비디아·AMD 중심의 GPU 축
구글·아마존·메타·MS·OpenAI·중국 빅테크의 ASIC 축
스마트폰·PC·차량 등 엣지 NPU 축
이 세 축이 서로 다른 영역을 맡아 가는 다극 구조로 흘러갈 가능성이 큽니다.
마무리하면,
범용성과 개발 생태계가 중요한 영역에서는 엔비디아 GPU가 계속 중심을 맡고
비용과 전력 효율이 절대적인 대량 추론·특정 서비스 영역에서는 자체 ASIC·NPU의 비중이 커지며
하드웨어 설계 경쟁 뒤에서는 TSMC·인텔·에너지 인프라 같은 보이지 않는 요소들이 승패에 큰 영향을 줄 것으로 보입니다.
AI 인프라 전략을 고민하는 입장에서는 "어떤 칩이 더 좋은가"라는 단순 비교보다는, 어떤 워크로드를 어느 수준의 규모로, 어떤 기간 동안 운영할 것인지를 기준으로 GPU·ASIC·FPGA·NPU의 조합을 설계하는 관점이 필요해 보입니다.
출처 및 참고 :
이 노트는 요약·비평·학습 목적으로 작성되었습니다. 저작권 문의가 있으시면 에서 알려주세요.
