구글 TPU 완전 정리: AI 추론 시대를 바꾸는 진짜 비밀병기

AI 시대를 이야기할 때 대부분은 엔비디아 GPU만 떠올리지만, 구글 클라우드 안쪽을 들여다보면 판도는 꽤 다르게 보입니다. 그 중심에 있는 것이 바로 구글의 전용 AI 칩, TPU(Tensor Processing Unit)입니다.

TPU는 단순히 "구글이 만든 GPU 대체재"가 아니라, AI 추론 비용과 속도, 그리고 클라우드 비즈니스 모델 자체를 다시 짜게 만드는 전략 자산에 가깝습니다.

이 글에서는 TPU의 탄생 배경부터 GPU와의 구조적 차이, 실제 성능, 왜 아직까지 대중화가 더딘지, 그리고 구글 클라우드의 10년 먹거리가 왜 TPU인지까지 한 번에 정리해보겠습니다.

읽고 나면 "왜 구글이 이렇게까지 칩에 진심인지"가 꽤 선명하게 보이실 거예요.

구글 TPU의 탄생: 데이터센터가 두 배로 필요하다는 경고

TPU의 시작은 화려한 기술 데모가 아니라, 아주 현실적인 위기 예측에서 출발했습니다.

2013년쯤, 구글 내부에서 이런 계산을 합니다. "안드로이드 사용자가 모두 하루에 딱 3분씩만 음성 검색을 쓰면, 전 세계 데이터센터 용량을 거의 두 배로 늘려야 한다."

당시 구글은 CPU와 GPU로 대부분의 AI 연산을 처리하고 있었는데, 딥러닝의 핵심인 대규모 행렬 곱 연산을 하기엔 이 칩들이 너무 비싸고 비효율적이었던 겁니다. 더 많은 GPU를 사서 데이터센터를 키우는 것은 현실적으로도, 재무적으로도 지속 가능하지 않았죠.

그래서 구글은 소프트웨어 회사로서는 이례적인 결정을 내립니다. "우리가 직접 칩을 만들자. 딱 하나의 목적, 딥러닝 추론(TensorFlow 네트워크 실행)에 최적화된 칩."

이렇게 해서 나온 개념이 바로 ASIC 기반의 TPU였습니다.

프로젝트는 믿기 힘들 정도로 빠르게 진행됐습니다. 설계 아이디어에서 실제 데이터센터 탑재까지 15개월 정도밖에 걸리지 않았고, 세상에 공식 발표되기도 전에 이미 구글 지도, 포토, 번역 같은 핵심 서비스 뒤에서 조용히 일하고 있었죠.

흥미로운 점은, TPU가 처음부터 "외부 고객에 팔기 위해" 만들어진 칩이 아니라는 겁니다. 오히려 "우리 스스로 만든 AI 성공 때문에 데이터센터가 터져 나가게 생겼다"는 문제를 해결하기 위해 만들어진 생존형 칩이었습니다.

그래서 구글은 누구보다도 일찍, 그리고 깊게 "AI 추론 비용"이라는 문제를 들여다봐야 했고, 그 10년 넘는 고민의 결과물이 지금의 TPU 세대들로 이어지고 있습니다.

TPU vs GPU: 왜 용도가 다른 칩인지부터 이해해야 한다

겉으로 보면 TPU도 GPU처럼 "AI 가속기"일 뿐이지만, 설계 철학부터 완전히 다릅니다.

GPU는 원래 게임 그래픽과 영상, 물리 시뮬레이션처럼 다양한 작업을 처리하기 위해 만들어진 범용 병렬 프로세서입니다. 그래서 각기 다른 스레드를 관리하고, 분기 예측을 하고, 캐시를 복잡하게 운용하는 등 "무엇이든 어느 정도 잘" 하기 위한 회로가 가득 들어 있습니다.

반대로 TPU는 "AI 수학 전용 칩"에 가깝습니다. 영상 렌더링을 위한 회로나 텍스처 매핑 같은 기능은 과감하게 빼고, 신경망 연산의 핵심인 행렬 곱셈을 극단적으로 빠르게, 그리고 에너지 효율 좋게 수행하는 데 모든 걸 집중했습니다.

여기서 핵심 키워드는 '시스토릭 어레이(Systolic Array)'입니다.

일반 CPU나 GPU는 연산할 때마다 메모리에서 데이터를 가져오고, 다시 메모리로 쓰는 과정을 반복합니다. 이게 바로 유명한 '폰 노이만 병목'인데, 계산보다 데이터 이동이 더 큰 비용이 되는 상황이 자주 발생하죠.

TPU의 시스토릭 어레이는 이 방식을 아예 바꿉니다.

가중치 같은 데이터를 한 번 칩 안으로 들여오고
입력값을 거대한 곱셈 유닛 격자망 속으로 흘려보낸 뒤
중간 결과를 다시 메모리로 쓰지 않고, 바로 옆 유닛으로 전달하면서 연산을 이어갑니다.

혈액이 심장을 통과하듯 데이터가 흘러가며 계산된다고 해서 '시스토릭'이라는 이름이 붙었고, 그만큼 메모리 읽기·쓰기를 최소화합니다. 결국 같은 전력으로 더 많은 연산을 할 수 있고, 같은 연산량이라면 전력과 비용을 크게 줄일 수 있습니다.

구글의 최신 세대 TPU(아이언우드, TPU v7)는 여기에 몇 가지를 더 강화했습니다.

추천 시스템과 대규모 LLM에 중요한 임베딩 연산을 위한 SparseCore 개선
HBM 용량과 대역폭 확대: 칩당 192GB 탑재 (엔비디아 블랙웰 B200과 같은 수준)
칩 간 인터커넥트(ICI) 성능 강화: 수천 개 칩을 하나의 거대한 'TPU Pod'로 묶어 대규모 학습이 가능하도록 설계

네트워킹 레벨에서는 구글 특유의 광 회로 스위치(OCS)와 3D 토러스 구조를 활용해, 인피니밴드나 이더넷 기반보다 훨씬 전력 효율적인 구성을 만들었습니다. 대신 유연성은 다소 떨어지지만, "딱 AI 학습·추론용"으로는 매우 최적화된 셈이죠.

결론만 말하면, TPU는 범용성 대신 특화 성능을, 유연성 대신 효율을 선택한 AI 전용 칩입니다. GPU가 만능 스위스아미 나이프라면, TPU는 날카롭게 갈린 외과용 메스에 가깝습니다.

TPU 성능 vs GPU: 숫자로 보면 더 극명해지는 차이

그렇다면 실제 성능은 어떨까요? 문제는 구글이 공식적으로 세부 숫자를 잘 공개하지 않는다는 점입니다. 그래서 업계 인터뷰, 발표 자료, 서드파티 분석을 종합해 추론한 내용이 많습니다.

가장 최신 세대인 TPU v7(아이언우드)은 2025년 4월에 공개되었고, 아직 일부 고객에게만 제공되는 단계입니다. 내부적으로는 이미 구글의 최신 모델인 Gemini 3 학습과 추론에 사용된 것으로 알려져 있습니다.

이전 세대인 TPU v5p와 비교해 보면 점프 폭이 꽤 인상적입니다(외부 분석 자료 기반).

연산 성능(BF16): v5p 약 459 TFLOPS → v7 약 4,614 TFLOPS
메모리 용량: 96GB → 192GB
메모리 대역폭: 2,765 GB/s → 7,370 GB/s

단순 세대 교체가 아니라, 세대가 바뀔 때마다 거의 다른 급의 칩이 되어가는 느낌입니다.

성능 비교에 참여한 전·현직 구글 클라우드 직원, 경쟁사 엔지니어(AMD, 엔비디아 출신 등)의 공통된 평가는 대략 이렇습니다.

적절한 워크로드에서는 TPU가 엔비디아 GPU보다 비용 효율이 더 좋다.
전력 대비 성능(Performance per Watt)도 TPU 쪽이 우위인 경우가 많다.
다만 모든 작업에서 그런 것은 아니고, 특정 유형의 모델·작업에 최적화된 성격이 강하다.

검색 같은 대규모 동적 모델 학습에서는 GPU 대비 수 배 빠르게 학습했다는 내부 평가도 있었고, AI 검색 쿼리당 비용도 TPU 세대가 올라갈수록 GPU 대비 40~60% 이상 효율적인 것으로 언급됩니다.

고객 관점에서 더 현실적인 비교도 있습니다. 예를 들어, 한 고객은 "H100 8개를 쓰는 것보다 TPU v5e Pod 하나를 쓰는 게 비용·성능 면에서 훨씬 유리했다"고 말합니다. 특히 이미 TPU용 코드로 포팅이 끝난 상태라면, 같은 예산으로 더 많은 실험과 더 긴 학습을 돌릴 수 있다는 점을 강점으로 꼽습니다.

또 하나 흥미로운 부분은 세대가 바뀔 때마다 구글이 이전 세대 TPU 가격을 크게 낮춘다는 점입니다. 새로운 v4가 나오자 v2 가격이 엔비디아 GPU 대비 거의 '공짜에 가까운' 수준으로 떨어졌고, 덕분에 "조금 느려도 괜찮고, 시간 여유가 있는 작업이면 구형 TPU로 극저가에 돌리는 전략"이 충분히 가능해졌습니다.

여기에 구글은 Hot Chips 2025에서 TPU v7이 바로 이전 세대인 v6e 대비 와트당 성능이 두 배 개선되었다고 발표했습니다. 즉, 같은 전력을 쓰고 두 배의 일을 하는 셈이죠.

흥미롭게도, 엔비디아 CEO 젠슨 황 역시 공개적으로 "ASIC 중에서는 구글 TPU가 특별한 케이스"라고 인정한 바 있고, OpenAI가 TPU 사용을 검토한다는 기사에 대해 엔비디아가 민감하게 반응한 사례를 보면, 업계 최강자도 TPU를 매우 신중하게 보고 있다는 걸 알 수 있습니다.

그럼 왜 모두 TPU를 안 쓸까? 생태계의 벽과 멀티클라우드 현실

이쯤 되면 자연스럽게 이런 의문이 듭니다. "이렇게 좋으면, 왜 다들 TPU 안 쓰고 여전히 GPU를 쓸까?"

가장 큰 이유는 단 하나, 생태계입니다.

엔비디아의 CUDA는 이미 AI 엔지니어들의 머릿속에 '기본값'으로 자리 잡았습니다. 대학에서 배우는 GPU 프로그래밍도 대부분 CUDA이고, 수많은 오픈소스 라이브러리와 예제 코드, 튜토리얼이 CUDA·PyTorch 위에 올라가 있죠.

반면 TPU는 구글 내부에서 먼저 성숙해진 생태계입니다. JAX와 TensorFlow 기반으로 최적화되어 있고, 지금은 PyTorch도 지원하지만, 개발자 입장에서는 "이미 검증된 CUDA·GPU 코드를 그냥 가져다 쓴다"는 편안함을 이기기가 쉽지 않습니다.

두 번째 장벽은 클라우드 구조입니다.

대부분의 기업은 멀티클라우드를 사용하고, 데이터는 AWS, 애저, GCP 등 여러 곳에 흩어져 있습니다. AI 워크로드는 데이터가 있는 곳에서 돌리는 것이 가장 싸고 효율적입니다. 이때 엔비디아 GPU는 세 클라우드 모두에서 거의 동일한 형태로 제공되므로, 코드 수정 없이 원하는 클라우드로 그대로 옮겨 돌릴 수 있습니다.

반대로 TPU는 지금까지 사실상 GCP 전용이었습니다. 데이터가 AWS에 있는데 TPU를 쓰겠다고 GCP로 대규모 데이터를 빼오면, 클라우드 간 데이터 전송(egress) 비용만으로도 손익이 크게 나빠질 수 있습니다.

여기에 "락인(lock-in) 우려"도 있습니다. 어떤 고객은 이렇게 요약합니다.

GPU/CUDA로 짜 놓으면 AWS, 애저, GCP 어디로든 비교적 쉽게 옮길 수 있다.
TPU에 완전히 올인했다가, 나중에 가격 정책이 크게 바뀌면 다시 전부 갈아엎어야 할 수도 있다.
비슷한 이유로 아마존의 Trainium, Inferentia도 적극 도입을 망설이게 된다.

구글도 이 문제를 모르는 게 아닙니다. 그래서 최근 들어 외부 고객용 TPU 조직을 별도로 꾸리고, PyTorch 지원 강화, 다른 스택과의 호환성 확대 등 "생태계를 밖으로 여는 작업"을 본격화하고 있습니다.

장기적으로는, 네오클라우드(소규모 전문 클라우드)나 특정 파트너를 통해 TPU를 더 폭넓게 제공하는 방식도 충분히 가능성이 거론되고 있습니다.

구글 클라우드의 10년짜리 무기: TPU가 바꾸는 수익 구조

개인적으로 TPU에서 가장 중요한 지점은 "구글 클라우드 수익성"이라고 생각합니다. 단순히 AI를 빠르게 돌릴 수 있는 칩이 아니라, 클라우드 비즈니스의 마진 구조를 통째로 바꿀 수 있는 레버기 때문입니다.

AI 이전 시대의 클라우드는 AWS, 애저, GCP가 과점 구조를 이루면서 50~70% 수준의 높은 매출총이익률을 자랑했습니다. 하지만 생성형 AI 시대가 본격화되면서 상황이 달라졌습니다.

AI 워크로드 경쟁이 치열해지고
엔비디아가 가속기에서 70%대의 높은 마진을 가져가면서
클라우드 업체 입장에서는 남는 마진이 20~30%대로 떨어지는 구조가 나타나고 있습니다.

극단적으로 말하면, "화려한 성장률을 가진 전기·수도 같은 유틸리티 사업"처럼 되어가는 것이죠.

여기서 빠져나오는 유일한 길이 바로 자체 ASIC입니다. 엔비디아에 비싼 칩을 사오지 않고, 직접 설계한 칩으로 AI 인프라를 돌릴 수 있다면:

같은 가격으로 팔면서도 더 높은 마진을 가져가거나
더 싸게 공급하면서 시장 점유율을 끌어올리는 전략이 가능해집니다.

AWS, 마이크로소프트, 구글이 모두 AI 전용 칩을 만드는 이유가 여기에 있습니다. 이 중에서 가장 앞서 있는 것은 단연 구글 TPU, 그다음이 아마존 Trainium, 마이크로소프트 MAIA가 뒤를 쫓는 형국입니다.

구글은 여기서 한 걸음 더 나아가 있습니다. 칩 설계의 전면(프론트엔드, RTL 설계)을 대부분 자체적으로 가져오고, 브로드컴은 물리 설계(백엔드) 파트너 역할만 맡고 있다는 점입니다. 덕분에 브로드컴이 가져가는 마진도 엔비디아만큼 높지 않고, 구글은 칩 구조와 소프트웨어 스택을 완전히 쥐고 최적화를 밀어붙일 수 있습니다.

이미 TPU로 학습한 대표 모델인 Gemini 3는 여러 벤치마크에서 세계 최상위권 성능을 보여주고 있고, 구글 내부 AI 서비스(검색, 광고, 유튜브 추천, Veo 등)도 대부분 TPU 기반으로 돌아가는 것으로 알려져 있습니다. 엔비디아 GPU는 주로 "고객이 원해서" GCP에서 제공하는 옵션에 가깝습니다.

앞으로 ASIC 세대가 거듭될수록 난이도와 개발비는 계속 올라갈 것이고, 모든 클라우드 회사가 이 경쟁을 끝까지 버티기는 어려울 겁니다. 그렇기 때문에 이미 10년 이상을 앞서 달려온 구글 TPU는, GCP가 AI 시대에 마켓쉐어와 수익성 두 마리 토끼를 모두 노릴 수 있는 가장 강력한 무기가 됩니다.

반도체 분석으로 유명한 SemiAnalysis도 최근 "하이퍼스케일러들 중 실리콘 역량은 구글이 압도적"이라고 평가하며, TPU 7세대를 엔비디아 블랙웰급으로 평가한 바 있습니다.

AI 추론 시대, 왜 'TPU형 칩'이 더 중요해지는가

지금까지의 AI 붐은 "초거대 모델 학습"에 초점이 맞춰져 있었다면, 앞으로의 10년은 "무수히 많은 추론 요청"이 중심이 되는 시기가 될 가능성이 큽니다. 즉, 학습 몇 번 vs 추론 수조 번의 세계로 간다는 이야기죠.

이때 가장 중요한 것은:

응답 속도
쿼리당 비용
전력 효율과 데이터센터 밀도

세 가지입니다.

TPU는 바로 이 "추론 경제학"을 겨냥해서 만들어진 칩입니다. 시스토릭 어레이로 메모리 병목을 줄이고, 특정 유형의 모델에 대해 압도적인 효율을 끌어내도록 설계되어 있기 때문에, AI 검색이나 LLM 기반 서비스가 폭발적으로 늘어날수록 진가가 드러나게 됩니다.

또한, 학습 측면에서도 Gemini 3처럼 최상위급 모델이 TPU 기반으로 성공 사례를 만들었기 때문에, "학습은 GPU, 추론은 TPU"라는 이분법보다는 "학습과 추론 모두 TPU에서"라는 방향으로 구글 내부 전략이 움직이고 있는 것으로 보입니다.

TPU가 꼭 GPU를 완전히 대체할 필요는 없습니다. 오히려 AI 인프라의 상당 부분을 "고효율 전용 칩"으로 옮기고, 나머지 유연성이 필요한 영역에 GPU를 쓰는 혼합 구조가 될 가능성이 높습니다.

이 구조에서, TPU 같은 전용 칩을 가진 클라우드만이 건강한 마진 구조를 유지할 수 있고, 나머지 클라우드는 점점 "엔비디아 리셀러"에 가까운 사업 구조가 될 위험도 있습니다.

마무리: 앞으로 10년, AI 칩에서 봐야 할 진짜 포인트

정리해 보면, 구글 TPU의 핵심 포인트는 네 가지로 요약할 수 있습니다.

첫째, TPU는 "구글이 돈 아끼려고 만든 칩"에서 출발했지만, 지금은 AI 추론 시대의 핵심 인프라로 성장했습니다. 둘째, GPU와 달리 한 가지 목적(딥러닝 연산)에 극도로 특화된 구조 덕분에, 전력과 비용 효율에서 강력한 무기를 갖게 되었습니다. 셋째, 성능·와트·비용 모든 면에서 경쟁력이 있음에도, CUDA 생태계와 멀티클라우드 현실 때문에 대중적 확산이 더디다는 한계가 있습니다. 넷째, 그럼에도 불구하고 구글 클라우드 입장에서 TPU는 마진 구조를 지키고, 경쟁에서 차별화할 수 있는 10년짜리 전략 자산입니다.

앞으로 AI 인프라를 볼 때, "누가 GPU를 얼마나 많이 샀나"보다 "누가 자신만의 제대로 된 ASIC을 가지고 있나"를 보는 것이 훨씬 중요한 질문이 될 겁니다.

개발자나 스타트업 입장에서도, 장기적으로 대규모 AI 서비스를 운영할 생각이라면 GPU만이 유일한 선택지는 아니라는 점을 염두에 두시는 게 좋습니다. 특히 비용과 전력, 지속 가능성을 고민한다면, TPU 같은 전용 칩이 열어줄 새로운 옵션을 꾸준히 체크해 볼 필요가 있습니다.

엔비디아가 눈여겨보는 칩, 구글이 10년 넘게 집착해온 칩, 그리고 Gemini 3 뒤에 있는 칩. 그게 바로 구글 TPU입니다.

출처 및 참고 : The chip made for the AI inference era – the Google TPU