spoonai
TOPGoogleTPUIronwood

42.5 ExaFLOPS, 구글이 추론 시대의 무기를 꺼냈다

구글 7세대 TPU Ironwood가 GA로 전환. 칩당 4,614 TFLOPS, 9,216칩 슈퍼팟, Anthropic 100만 TPU 계약까지. 추론 중심 AI 인프라의 새 기준.

·11분 소요·Ironwood: The first Google TPU for the age of inference

지난해까지만 해도 AI 얘기는 학습(training)이 중심이었어. 얼마나 큰 모델을 얼마나 잘 만들 것인가. 근데 이제 대판 바뀌었어. Gemini, Claude, Grok 같은 대형 언어 모델들이 이미 학습을 완료했거든. 이제 남은 건 "어떻게 이 모델들을 빠르고 저렴하게, 그리고 대량으로 배포할 것인가"라는 질문이야. 이걸 추론(inference)이라고 부르는데, 구글이 바로 이 시대를 겨냥해서 만든 게 Ironwood TPU야.

4월 1일, 구글이 7세대 TPU인 Ironwood를 공식적으로 출시했어. 클라우드 고객들은 지금부터 이 칩을 쓸 수 있다는 뜻인데, 숫자만 봐도 인상적이야. 칩 하나당 4,614 TFLOPS의 처리 능력, 192GB의 고대역폭 메모리, 7.37 TB/s의 메모리 대역폭. 그리고 이런 칩 9,216개를 한 군데 연결하면 42.5 ExaFLOPS의 연산 능력이 나온다고 했어. 근데 이게 정확히 뭐가 좋은 건지, 왜 추론 시대에 이게 필요한 건지 까보자.

추론 시대가 온 이유

AI 모델 학습은 이제 극소수 회사만 하는 일이 됐어. OpenAI, Anthropic, Google, Meta, Alibaba 같은 곳들. 이들이 엄청난 규모의 TPU나 GPU를 써서 모델을 만들고, 나머지 회사들은 이미 만들어진 모델을 가져다가 자기 서비스에 맞게 쓰는 거지. ChatGPT나 Claude API 같은 걸 호출해서 응답을 얻는 식으로 말이야.

그런데 여기서 문제가 생겨. 하루에 몇 백만 건, 몇 천만 건의 요청이 들어오는데, 각각에 대해 빠르게 답변을 줘야 한다는 거야. 학습과 추론의 최적점이 다르거든. 학습은 높은 정확도, 큰 배치 사이즈를 선호하고, 추론은 낮은 지연시간(latency), 높은 처리량(throughput)을 원해. 똑같은 하드웨어로 둘을 다 잘 하기는 어렵다는 뜻이야.

Anthropic의 예를 보면 이 고민이 훨씬 와 닿아. 이들은 지난해 구글 클라우드에 100만 개의 TPU를 확보할 계획을 발표했어. 그런데 이게 뭐에 쓰는 건지 생각해 보면, Claude 사용자들의 요청 하나하나를 빠르게 처리하는 데 쓰는 거야. 모델을 계속 학습시키는 게 아니라, 이미 완성된 모델을 엄청나게 많은 동시 사용자들이 쓸 수 있도록 준비하는 거지.

추론 중심이 되면서 인프라 요구사항도 확 달라졌어. 지연시간이 중요해지고, 메모리 대역폭 효율이 중요해지고, 칩 간 통신 속도도 중요해졌어. 그리고 비용 대비 성능도 중요해졌지. 추론 작업은 학습보다 훨씬 더 자주, 더 오래 일어나니까 말이야. 이 모든 조건을 맞춘 칩이 Ironwood야.## Ironwood의 핵심 스펙: 무엇이 4배나 빨라졌나

Ironwood는 기본적으로 지금까지의 TPU 중 가장 추론 최적화된 칩이야. 한 번 숫자를 정리해 보자.

항목 Ironwood TPU v6e (Trillium) TPU v5p
칩당 FP8 TFLOPS 4,614 ~1,150 ~461
HBM 메모리 192 GB 48 GB 24 GB
메모리 대역폭 7.37 TB/s ~2 TB/s ~1 TB/s
성능 향상 4X 10X

숫자가 다 4배, 10배라는 건 단순 개선이 아니라 완전히 다른 차원의 칩이란 뜻이야. 그리고 이건 칩 하나만 놔두고 본 거고, 이런 칩들을 9,216개 연결하면 어떻게 될까?

9,216개의 Ironwood를 하나의 슈퍼팟으로 묶으면 42.5 ExaFLOPS의 FP8 연산 능력이 나와. ExaFLOPS는 백경(엑사) 단위 부동소수점 연산이야. 즉 초당 42조 5천억 번의 연산을 할 수 있다는 뜻이지. 이건 지금까지 나온 어떤 가속기와도 비교가 안 될 정도의 수치야.

근데 숫자가 큰 것만으로는 추론 최적화가 아니야. 진짜 중요한 건 디테일에 있어.

첫째, 메모리 대역폭이 엄청나게 커졌어. FP8 연산에 최적화돼 있으니까, 모델의 가중치를 FP8로 양자화하면 메모리에 4배 더 많은 데이터를 담을 수 있어. 그리고 7.37 TB/s의 대역폭으로 이 데이터를 초고속으로 읽어들일 수 있다는 뜻이야. 추론에서는 메모리 접근 속도가 곧 지연시간을 결정하거든.

둘째, SparseCore가 강화됐어. 이건 뭐냐면, 모델의 계산 중 일부는 0으로 채워져 있는데(sparse), 이런 부분을 스킵해서 속도를 올리는 기술이야. 현대 LLM들이 많은 부분에서 이런 특성을 가지고 있으니까, SparseCore가 강력할수록 추론이 더 빨라지는 거지.

셋째, 칩 간 통신 속도를 높였어. ICI(Inter-Chip Interconnect) 네트워킹이 개선됐다고 했는데, 이게 중요한 이유는 뭘까? 9,216개 칩이 마치 하나의 거대한 가속기처럼 움직이려면, 칩들 사이의 통신이 아주 빨라야 하거든. 한 칩에서 연산한 결과가 다른 칩으로 가야 하는데, 이게 병목이 되면 전체 성능이 떨어져. Ironwood는 이 병목을 줄였어.

넷째, HBM3E 메모리를 썼어. HBM은 High Bandwidth Memory의 줄임말인데, 최신 세대인 HBM3E는 더 빠르고 더 많은 용량을 담을 수 있어. 192GB라는 용량은 상당히 크거든. 이 정도면 대부분의 현대 LLM의 가중치를 칩 내 메모리에 로드할 수 있다는 뜻이야.

다섯째, 전력 효율도 2배 좋아졌어. TPU v6e 대비 성능 당 전력 소비가 절반이라는 뜻인데, 추론은 학습과 달리 24시간 내내 돌아가는 경우가 많으니까 전력 효율이 엄청 중요해. 같은 성능을 반의 전력으로 낼 수 있으면, 냉각 비용도 줄어들고 인프라 전체 비용도 확 떨어지지.## 학습 vs 추론: 칩의 역할이 바뀌었다

여기서 한 가지 흥미로운 걸 짚고 넘어가야 해. Ironwood가 "추론 최적화"라고 불리는 이유가 뭘까?

지금까지 TPU는 주로 모델 학습에 쓰였어. Google의 Transformer부터 시작해서, BERT, GPT, 모든 큰 모델들이 TPU를 써서 학습됐거든. 학습은 엄청나게 많은 양의 데이터를 여러 번 읽으면서, 모델의 가중치를 조금씩 업데이트하는 과정이야. 이 과정에서는 높은 정확도(high precision)가 중요해. 그래서 학습용 TPU는 FP32, BF16 같은 고정도 연산을 선호했어.

근데 추론은 완전 다르지. 이미 완성된 모델의 가중치는 건드리지 않고, 주어진 입력에 대해 빠르게 출력을 뽑아내는 과정이야. 한 명의 사용자 요청에 대해 몇십 밀리초 안에 답변을 줘야 하니까, 정확도보다는 속도가 더 중요해. 그리고 놀랍게도, 현대 LLM들은 FP8 정도의 낮은 정확도로도 거의 같은 품질의 출력을 낸다는 게 밝혀졌어. 이게 가능한 이유는 이미 학습이 완료된 모델이 꽤 견고하거든.

Ironwood는 바로 이 "낮은 정확도, 높은 속도"의 추론 세계에 최적화된 거야. FP8 연산을 전면적으로 지원하고, 이에 맞게 메모리 대역폭도, 캐시도, 모든 게 튜닝돼 있어.

이게 왜 중요한지는 비용으로 생각해 보면 명확해. Anthropic이 100만 대의 TPU를 확보하겠다고 한 건, Claude를 쓰는 모든 사용자의 요청을 병렬로 처리하겠다는 뜻이야. 한국에만 해도 매초 몇천 개의 요청이 들어올 텐데, 이걸 다 처리하려면 정말 엄청난 규모의 인프라가 필요해. 그런데 이 모든 인프라가 학습용처럼 고정도, 고전력을 요구했다면, 비용이 감당 불가능했을 거야. Ironwood의 추론 최적화 덕분에, 같은 비용으로 훨씬 더 많은 사용자를 처리할 수 있게 된 거지.

이제 구글, Anthropic, 그 외 AI 기업들의 전략이 보이지 않아? 학습은 한두 번 하면 끝이지만, 추론은 평생 계속되는 일이야. 따라서 추론 효율이 비즈니스를 좌우한다는 거. Ironwood는 그 추론 전쟁에서 구글의 첫 번째 대형 무기인 셈이야.

Anthropic의 100만 TPU 계약이 의미하는 것

Ironwood 출시와 동시에 한 가지 중요한 소식이 나왔어. Anthropic이 구글 클라우드에서 최대 100만 개의 TPU를 확보하겠다고 발표한 거야. 이건 단순한 구매 계약이 아니라, AI 인프라 전쟁에서 무엇이 중요한지를 보여주는 신호야.

먼저 규모부터 생각해 보자. 100만 개의 TPU? 이게 얼마나 많은 규모인지 감이 안 올 수도 있어. 2023년 기준으로 전 세계 데이터센터가 사용하는 GPU의 총 개수가 대략 5천만 개 정도라고 봐. TPU는 GPU보다 훨씬 비싸고 전문화된 칩이니까, 100만 개라는 건 정말 어마어마한 양이야.

이걸 팹비용(fab cost)으로 계산해 보면 더 무섭지. 한 개의 Ironwood TPU가 대략 몇십만 달러에서 수백만 달러 사이라고 추정되는데(정확한 가격은 구글이 공개하지 않지만), 100만 개면 수조 달러대의 투자 규모가 되는 거야. Anthropic은 이런 규모의 인프라 투자를 감행하고 있다는 뜻이고, 이건 Claude가 얼마나 중요한 비즈니스라고 Anthropic이 보고 있는지를 말해줘.

그런데 한 가지 흥미로운 점은, Anthropic이 모든 TPU를 한 번에 들여온다는 게 아니라는 거야. "최대 100만 개까지" 확보할 계획이라고 한 건데, 이는 수요에 따라 점진적으로 늘려나가겠다는 뜻이야. Claude 사용자가 많아질수록, 동시 사용자가 늘어날수록 필요한 TPU도 늘어나기 때문이지. 이렇게 보면 100만 개라는 숫자는 2026년 한 해, 또는 그 다음 해에 예상되는 수요를 커버하기 위한 규모라고 볼 수 있어.

이제 또 다른 각도에서 생각해 보자. OpenAI는 NVIDIA GPU를 쓰고, Meta도 NVIDIA GPU를 쓰고, 심지어 NVIDIA도 자사 칩을 쓰지. 근데 Anthropic은 왜 구글의 TPU에 올인하는 걸까?

첫 번째 이유는 성능이야. Ironwood의 성능 대비 가격이 꽤 괜찮거든. 추론 최적화라는 점에서 보면, 같은 비용으로 NVIDIA H100이나 H200보다 더 높은 처리량을 낼 수 있어.

두 번째 이유는 비용이야. TPU는 구글 클라우드 내에서만 쓸 수 있고, 구글이 그 생태계를 통제하고 있어. 따라서 소프트웨어 최적화, 오토스케일링, 비용 절감 같은 모든 게 TPU에 맞춰진 거야. OpenAI가 Azure를 쓰는 이유도 비슷하지. 단일 클라우드 제공자와 긴밀하게 협력하는 게, 여러 벤더를 섞어 쓰는 것보다 비용과 성능 면에서 유리하다는 뜻이야.세 번째 이유는 독점 기술이야. 구글 AI 팀이 자사 TPU와 구글 고유의 소프트웨어 스택(JAX, TensorFlow 등)을 완벽하게 최적화했거든. Anthropic은 이걸 활용할 수 있어. OpenAI도 마찬가지로 NVIDIA와 Microsoft의 긴밀한 협력으로 같은 이점을 누리고 있고.

네 번째 이유는 미래 전략이야. 만약 Anthropic이 GPU 위주의 전략을 썼다면, NVIDIA의 성능 향상에 의존해야 해. 근데 TPU를 선택함으로써, 구글과 함께 미래 인프라를 설계할 수 있다는 뜻이야. 다음 세대 Ironwood가 나올 때, Anthropic이 직접 요구사항을 전달하고 반영할 수 있다는 것. 이게 장기적으로 엄청 큰 전략적 이점이 돼.

Gemini, Veo, Imagen, Claude 모두 TPU 위에서

여기서 한 가지 더 흥미로운 건, 이미 나와 있는 최신 AI 모델들이 모두 TPU 위에서 학습되고 서빙되고 있다는 거야. Google의 Gemini는 당연히 TPU 위에서 만들어졌고, Imagen도, Veo도 모두 구글 TPU를 쓴 거야. 그리고 Anthropic의 Claude도 초기 버전부터 TPU 위에서 만들어졌거든.

이게 의미하는 바는 뭘까? 현재의 SOTA(State of the Art) 모델들이 모두 TPU 생태계에서 나오고 있다는 뜻이야. OpenAI의 GPT 시리즈는 NVIDIA 기반이고, Anthropic의 Claude는 TPU 기반이고, Meta의 Llama도 NVIDIA 기반이고, DeepSeek도 혼합이고... 이렇게 각 회사가 자기 칩 진영에서 움직이고 있거든.

근데 여기서 주목할 점은, TPU 진영의 기업들이 모두 OpenAI 진영보다 더 높은 기술 수준을 보여주고 있다는 거야. Claude 3.5 Sonnet이 GPT-4o를 앞질렀다고 평가받는 것도, Gemini 2.0의 성능도, 모두 TPU 최적화의 결과물이라고 봐도 무방해. 학습 당시부터 칩을 고려해서 모델을 설계했기 때문에, 아키텍처 자체가 다를 수밖에 없는 거지.

이제 보이는 패턴이 명확해. 가장 앞선 모델들은 가장 고최적화된 인프라 위에서 나온다. Ironwood가 출시되면, 다음 세대의 모델들은 Ironwood를 염두에 두고 설계될 거고, 그러면서 자연스럽게 TPU 진영의 모델들이 계속해서 한 발씩 앞서나갈 거야.

이건 NVIDIA에게 위협이 될까? 단기적으로는 아닐 거야. NVIDIA의 데이터센터 GPU는 여전히 전 세계 95% 이상의 시장 점유율을 가지고 있거든. 하지만 장기적으로는? AI 시장에서 가장 부가가치 높은 부분(학습과 추론)이 점점 더 TPU로 넘어가고 있다면, NVIDIA의 입지가 조금씩 줄어들 수밖에 없어. 특히 추론 시장이 학습보다 훨씬 큰 시장이라는 점을 생각하면 더욱 그래.

더 넓은 그림: 인프라 전쟁의 축

이제 더 넓은 그림을 봐보자. Ironwood의 출시는 단순히 "새로운 칩이 나왔다"는 뜻이 아니라, AI 인프라 전쟁에서 구글이 공식적으로 선언한 선전포고 같은 거야.

현재 AI 인프라 전쟁의 축은 세 가지로 나뉘어 있어.

첫 번째는 칩이야. NVIDIA vs Google(TPU) vs others. NVIDIA가 아직도 우위에 있지만, TPU가 점점 잠식하고 있어.

두 번째는 클라우드 플랫폼이야. AWS vs Google Cloud vs Azure. 지금까지는 AWS가 압도적이었는데, AI 시대에는 Google Cloud가 크게 부상하고 있어. 왜냐하면 TPU + Google의 AI 소프트웨어 스택이 정말 강하거든.

세 번째는 모델이야. OpenAI(GPT) vs Google(Gemini) vs Anthropic(Claude) vs others. 이들이 각각 자기 칩과 클라우드 파트너를 가지고 있거든.

Ironwood는 이 모든 축의 교점에서 나온 거야. 구글이 칩, 클라우드, 모델을 모두 통제할 수 있는 입지를 더욱 강화한 움직임이지.

그리고 Anthropic과의 파트너십은 그 전략의 구체적인 실행이야. 만약 Anthropic이 성공하면, 구글의 TPU와 클라우드도 함께 성공하는 거거든. 반대로 말하면, 구글이 Anthropic의 성공을 돕기 위해 막대한 투자를 할 유인이 생긴다는 뜻이야.## 그래서 뭐가 달라질까

Ironwood의 출시와 대규모 배포가 실제로 뭘 바꿀까?

첫째, Claude 같은 대규모 언어 모델의 비용이 떨어질 거야. 추론 인프라 비용이 떨어지면, API 호출 가격이 내려갈 수밖에 없지. 이렇게 되면 더 많은 기업과 개인 개발자들이 Claude를 쓸 수 있게 돼. 그러면서 Claude의 시장 점유율이 자연스럽게 올라가는 거지.

둘째, 추론 최적화 기술의 표준이 바뀔 거야. 지금까지 양자화(quantization)는 학습 후 후처리로만 여겨졌는데, Ironwood는 FP8을 칩 수준에서 지원하니까 양자화가 더 이상 "좋으면 쓰고 아니면 말고" 선택사항이 아니라 기본이 돼. 이렇게 되면 다른 가속기 벤더들도 따라올 수밖에 없어.

셋째, GPU와 TPU의 경계가 더 명확해질 거야. GPU는 범용 컴퓨팅, TPU는 AI 최적화 이렇게 역할 분담이 더 분명해질 거라는 뜻이야. NVIDIA도 당연히 이걸 눈치챘을 테고, 자신들의 GPU를 더 추론 최적화하거나, 새로운 AI 가속기 라인을 만들 거야.

넷째, 프롬프트 엔지니어링과 모델 양자화가 더 중요해질 거야. Ironwood 같은 추론 최적화 칩이 나오면, 같은 비용으로 더 저정확도의 모델을 돌릴 수 있다는 뜻이고, 그러면 프롬프트나 파인튜닝으로 성능을 보정해야 한다는 뜻이거든.

다섯째, Google Cloud의 경쟁력이 한 단계 올라갈 거야. AWS는 NVIDIA에 의존하고, Azure는 OpenAI와 NVIDIA 모두에 의존하는데, Google Cloud는 TPU라는 독점 무기를 가지고 있거든. 이런 차별화는 엔터프라이즈 고객들을 끌어들이기에 충분해.

추론이 AI 비즈니스의 대부분을 차지하는 시대가 왔고, Ironwood는 그 추론 전쟁에서 구글의 전략적 우위를 10년 더 연장하는 칩이다.

남은 질문들

그럼 남은 질문은 뭘까?

첫째, NVIDIA가 어떻게 대응할 것인가. H200 다음에 나올 H300는 Ironwood의 성능에 어느 정도 따라갈 수 있을까? 아니면 완전히 다른 전략을 택할까?

둘째, 다른 AI 회사들은 어떻게 할까. OpenAI는 계속 NVIDIA에 올인할까, 아니면 자체 칩을 만들 시도를 할까? Meta는? Alibaba는?

셋째, 추론 시장이 정말로 학습 시장만큼 클 것인가. 만약 대부분의 추론이 엣지 디바이스(휴대폰, PC 같은)에서 일어나게 되면, 클라우드 추론의 중요성은 떨어질 거야. 근데 지금 추세로 보면 아직도 클라우드 기반 추론이 훨씬 더 효율적이니까, 이건 한동안 안 바뀔 거 같아.

넷째, Anthropic이 정말로 100만 개의 TPU를 모두 쓸 수 있을까. 반도체 공급 부족 같은 문제도 있고, 실제 수요도 예측하기 어렵거든.

다섯째, 기술적으로 Ironwood 다음은 뭘까. 구글은 이미 다음 세대를 준비하고 있을 텐데, 언제쯤 나올까?

마치며

Ironwood의 출시는 사건이 아니라 하나의 신호야. AI가 주류 기술이 되면서, AI 인프라를 누가 통제하는가가 앞으로 10년 기술 업계의 가장 중요한 질문이 됐다는 뜻이거든. 구글은 칩(Ironwood), 클라우드(Google Cloud), 모델(Gemini, Claude와의 파트너십), 소프트웨어(JAX, TensorFlow)를 모두 통제하고 있고, 이제 추론 시장이 본격적으로 열리면서 이 모든 게 시너지를 낼 준비가 돼 있어.

지금 이 순간은, 5년 전 NVIDIA가 GPU 시장을 주도하면서 AI 시대를 열었던 것과 비슷한 중요성을 가지고 있어. 그 때는 NVIDIA가 유일한 선택지였는데, 이제는 다양한 선택지가 생기고 있다는 뜻이고, 그 다양성 속에서 시장이 더욱 빠르게 움직일 거라는 뜻이야.

Ironwood를 보면서 느껴지는 건, AI 시대는 방금 시작됐다는 거야. 지금까지는 모델 개발과 학습이 중심이었는데, 이제부터는 추론 효율, 비용, 그리고 스케일이 중심이 될 거거든. 그리고 그 중심에 Ironwood가 있다.

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.