spoonai
TOPAmazonAWSMarvell

AWS의 AI 칩 백로그가 $225B야 — Trainium 파트너 Marvell이 올해만 2배 뛴 이유

5월 11일 보도 기준 AWS의 AI 칩 백로그가 $225B에 달했어. Graviton·Trainium2/3·Inferentia 같은 자체 실리콘이 내부 워크로드뿐 아니라 외부 고객 수요까지 끌어들이는 중. 디자인 파트너 Marvell은 2024년 12월 5년 연장 이후 2026년 주가가 두 배. Trainium2는 AWS 사상 최단 램프업, Trainium3은 2026년 중반 사실상 매진.

·8분 소요·The Motley FoolThe Motley Fool
공유
Amazon AWS AI 칩 백로그 $225B — Trainium 시리즈 수요 폭증
출처: The Motley Fool

$225B — AWS가 칩 비즈니스로 변하는 단일 숫자

5월 11일 The Motley Fool이 정리한 바에 따르면 Amazon AWS의 AI 칩 백로그가 $225B에 달했어. 이게 아주 큰 숫자인 이유는 두 가지. 첫째, 이건 AWS 클라우드 매출 백로그가 아니라 그 안에서 AI 가속기·자체 실리콘이 차지하는 부분만 분리한 숫자야. 둘째, 12개월 전 같은 카테고리 백로그가 $80B였어 — 1년 사이에 약 3배가 됐어.

자체 실리콘 라인업은 (1) Graviton — Arm 기반 범용 CPU, 5세대까지 진행, (2) Trainium 2/3 — AI 트레이닝 가속기, (3) Inferentia — 추론 가속기. 이 셋이 합쳐서 AWS 전체 컴퓨트 인스턴스의 약 35%를 점유 중. 5년 전 거의 0%였던 게 35%까지 올라온 게 가장 빠른 in-house 실리콘 전환 사례야. 더 중요한 건 Trainium 2·3이 Anthropic Project Rainier(2024년 발표)에서 단일 데이터센터 1GW 규모로 묶이면서 Anthropic의 Claude 학습 인프라의 절반 이상을 책임지게 됐다는 점.

이 백로그의 직접 수혜자가 디자인 파트너 Marvell Technology야. AWS와 2024년 12월에 5년 디자인 협력 연장 계약을 발표한 직후, 2025년 -10% 부진했던 Marvell 주가가 2026년 들어 두 배(+100%)가 됐어. Trainium 시리즈의 ASIC 설계 일부와 차세대 광 인터커넥트(Optical I/O)가 Marvell 매출의 차세대 성장 엔진. 2026년 4개월 동안 Marvell의 데이터센터 부문 매출이 전년 동기 대비 +95% 점프했고 백로그도 사상 최대 영역.

각 주체 — Amazon, AWS, Marvell, Anthropic, Nvidia

Amazon (AWS). 2026년 Q1 기준 매출 약 $30B대 후반(연 환산 $150B+), 영업이익률 약 38%. 이 중 AI 워크로드 비중이 약 25%, 그 25%의 절반이 자체 실리콘에서 나오는 구조. 즉 AWS AI 인프라의 절반을 자체 칩으로 돌린다는 게 핵심. CEO Andy Jassy가 Q1 컨퍼런스 콜에서 "AI 워크로드의 capex가 2026년 $130B이고 이중 자체 실리콘 capex가 $40B"라고 명시. Trainium3 봇톰에 50만 칩 단위 주문이 들어가 있다는 이야기.

Trainium 시리즈. Trainium2는 2024년 re:Invent에서 발표, 2025년 Q1부터 양산. AWS 자체 표현으로 "AWS 사상 최단 램프업". 이유는 (1) Anthropic 단일 고객이 Project Rainier에서 40만 Trainium2 칩 주문, (2) AWS 자체 ML 워크로드(Alexa, Bedrock, SageMaker)가 빠르게 전환, (3) Apple Foundation Model 학습 일부가 Trainium2 위에서 돌아가는 것으로 알려짐. Trainium3은 2024년 12월 발표, 2026년 H2 본격 출하 예정 — 발표 시점에서 H2 출하 분이 거의 다 사전 약정.

Marvell Technology. AWS Trainium 시리즈의 핵심 ASIC 설계 파트너. Trainium 칩의 디자인 IP 일부, 광 트랜시버, HBM 컨트롤러 등을 공급. 2024년 12월 발표한 5년 연장 계약은 사실상 "AWS의 차세대 칩 로드맵을 함께 짠다"는 약속. 2026년 Q1 데이터센터 매출이 $2.5B로 사상 최대(전년 동기 +95%). 시가총액은 4월 말 기준 $130B대로 2배 점프.

Anthropic. AWS의 가장 큰 외부 Trainium 고객. Project Rainier(2024년 발표)는 단일 사이트 1GW급 Trainium 클러스터로 Claude 차세대 모델 학습용. 2026년 5월 발표한 Anthropic-SpaceX Colossus 1 컴퓨트 계약과 별도로 Trainium 의존도는 유지. 단일 모델 회사가 단일 칩 회사 로드맵의 약 30%를 책임지는 보기 드문 구조.

Nvidia. 직접 경쟁자. AWS는 Nvidia GPU를 여전히 가장 많이 구매하는 hyperscaler 중 하나지만, Trainium 비중을 빠르게 늘리면서 'Nvidia + Trainium 듀얼 소싱' 전략. Nvidia 입장에서 AWS는 가장 큰 단일 고객 중 하나이면서 동시에 가장 큰 잠재적 위협 — Trainium이 Nvidia GPU 점유율을 잠식하는 첫 hyperscaler 자체 칩.

핵심 내용 — 백로그 구조, capex, Marvell 수혜 사이즈

백로그 $225B의 구성. 단순화하면 (1) Anthropic 다년 commitment $80B대, (2) Apple AI 인프라 $40B대(Apple Foundation Model 학습용), (3) Pfizer·Roche·JPMorgan 같은 엔터프라이즈 고객 합산 $50B대, (4) 정부·국방 commitment $30B대, (5) 기타 $25B. 5월 11일 시점에서 약속된 미래 매출 라인이라 인식해야 해 — 즉 향후 3-5년에 걸쳐 인식될 매출.

Capex 사이즈. AWS 자체가 2026년 capex $130B+ 가이던스를 제시. 이중 약 $40B가 자체 실리콘 (Trainium 칩 자체 제조 + 데이터센터 통합) capex. 같은 해 Microsoft Azure capex $100B대, Google Cloud $80B대와 비교하면 Amazon이 절대 규모 1위. 5년 누적 capex가 이미 $400B 수준이라 인프라 차원에서 이미 hyperscaler 1위 굳히기.

항목 수치
AWS AI 칩 백로그 (2026-05-11) $225B
1년 전 동일 카테고리 $80B
2026 AWS 총 capex $130B+
자체 실리콘 capex $40B
Marvell 2026 YTD 주가 +100%
Marvell 데이터센터 부문 YoY +95%

Trainium 단가와 마진. Trainium2 칩 한 장당 AWS 내부 원가가 $4,000-5,000 추정, 인스턴스로 임대 시 시간당 $20-25 단가. 동급 Nvidia H200 시간당 $35-40과 비교하면 약 35-40% 저렴. 이 가격 차이가 Anthropic·Apple 같은 큰 고객을 끌어당기는 핵심.

Marvell 수혜 메커니즘. Marvell이 받는 매출은 (1) Trainium 칩 ASIC 디자인 license fee + 칩 단위 royalty, (2) 광 트랜시버 — Trainium 클러스터 간 인터커넥트, (3) HBM 컨트롤러 IP. 2026년 Marvell 데이터센터 매출 $10B 가이던스 중 약 절반이 AWS 관련. 즉 AWS 한 고객이 Marvell 매출의 25%를 책임지는 구조 — lock-in이 매우 깊어.

각자의 이득

Amazon의 이득. 첫째, capex 효율. 자체 실리콘으로 가면 Nvidia 마진(60-70%)을 자기가 가져가. 같은 컴퓨트 단가에서 마진 차이가 인스턴스 단가 30-40% 절감으로 직결. 둘째, 락인. Anthropic 같은 큰 고객이 Trainium 위에서 모델을 학습하면 모델 가중치·인프라가 AWS에 묶여. 셋째, 협상력. Nvidia와 협상에서 "안 사면 우리 자체 칩 더 늘릴게"라는 카드가 진짜 카드가 됨.

Anthropic의 이득과 의존. 이득은 동급 Nvidia GPU 대비 35-40% 저렴한 컴퓨트. 단일 모델 회사 입장에서 학습 비용 구조가 30% 가량 개선. 의존은 AWS가 Anthropic의 가장 큰 인프라 + 자본 파트너가 되면서 사실상 'AWS-Anthropic' 하나의 기술 스택이 되는 점. 이게 향후 18-24개월 Anthropic의 가장 큰 구조적 리스크.

Marvell의 이득. 가장 직접적. 2026년 매출 $25B 가이던스 중 데이터센터 $10B가 핵심 성장 라인. AWS 한 고객의 백로그가 $225B임을 감안하면 향후 3-5년 Marvell의 차세대 디자인 win이 거의 예약된 상태. 시가총액 $130B → $200B 가능성을 시장이 가격에 반영 중.

Nvidia의 손해와 헤지. 손해는 명확 — AWS 점유율의 일부 잠식. 다만 Nvidia 입장에서 AWS는 여전히 가장 큰 GPU 고객 중 하나이고 Rubin 출시와 함께 다시 점유율 회복 가능성. 헤지로 Nvidia가 자체 클라우드(DGX Cloud)를 키우는 중인데, 이게 hyperscaler 의존도 낮추는 길.

Apple의 이득. Foundation Model 학습 인프라를 AWS Trainium에 일부 두면서 자체 GPU 클러스터 capex를 절감. 2026년 iOS 27에서 발표 예정인 'AI Extensions'(Claude·Gemini 호출)와 별도로 Apple 자체 모델 학습은 AWS·Google 양쪽 듀얼 소싱.

기타 hyperscaler의 손해. Microsoft Azure와 Google Cloud는 AWS의 자체 실리콘 비중이 높아질수록 자기들도 인하우스 칩 (Azure Maia, Google TPU) 가속해야 하는 압박. Microsoft는 Maia 양산 ramp이 늦은 편이고, Google은 TPU v6/v7 진척이 좋지만 외부 고객(Anthropic, Salesforce) 이외 확장이 느려.

과거 유사 사례 — 성공과 실패

성공: Apple Silicon 전환 (2020-2024). Apple이 Intel CPU에서 자체 M 시리즈로 4년에 걸쳐 전환. 결과는 노트북 BOM에서 CPU 비중 -40%, 마진 +5pp 개선, 성능 30-50% 향상. Trainium 전환의 경제 모델이 정확히 이거. 차이점은 Apple은 컨슈머 디바이스, AWS는 데이터센터 — 규모와 마진 임팩트가 더 큼.

성공: Google TPU 진화 (2016-현재). Google이 2016년 TPU v1 출시 이후 v7까지 진화. 자체 학습·추론에 TPU를 사용하면서 Nvidia GPU capex를 크게 줄였고, 2024년부터 외부 고객(Anthropic 1차 학습 일부, Salesforce, Adobe)에게 판매 시작. AWS Trainium의 모델은 Google TPU 모델과 비슷하지만 외부 고객 베이스가 이미 더 큰 상태에서 시작.

실패: Microsoft 자체 ARM 서버 칩 (2017-2019). Microsoft가 Cavium ThunderX 기반으로 자체 ARM 서버 칩을 만들려다 효율성 문제로 중단. 이후 다시 시도해서 Cobalt 100을 2024년 출시. AWS가 Graviton에서 5세대까지 빠르게 진화한 반면 Microsoft가 한 차례 실패한 게 hyperscaler 칩 전략의 가장 큰 격차.

실패: HP의 Itanium 베팅 (2001-2017). HP-Intel 공동 개발 Itanium이 결국 사라진 케이스. 외부 ISV 생태계 확보 실패가 원인. AWS Trainium의 약점은 PyTorch·CUDA 호환성 — 자체 SDK인 Neuron이 PyTorch를 통합하긴 했지만 CUDA 생태계 이전이 여전히 마찰. 이게 잘 안 풀리면 Anthropic 같은 큰 고객 외에 mid-tier 고객 확장이 더딜 가능성.

경쟁자 카운터 플레이

Nvidia. Rubin(2026 H2) + DGX Cloud 확장이 핵심. Rubin이 H100/H200 대비 3-4배 성능 점프를 만들면서 단가 효율로 Trainium을 다시 압도. DGX Cloud로 hyperscaler 우회 직접 판매도 확대.

Microsoft Azure. Azure Maia v2 양산 가속. Anthropic의 일부 Trainium 의존을 Microsoft 측으로 끌어오기 어렵지만(이미 OpenAI 49% 지분), OpenAI 학습용으로 Maia를 핵심 칩으로 쓰는 그림 그리는 중. Maia v3가 2027년 ramp.

Google Cloud. TPU v7 + Vertex AI 묶음으로 외부 고객 확장. Anthropic이 GTC에서 'TPU + Trainium 멀티 소싱'을 명시한 게 Google 입장에서는 긍정적 신호. Salesforce와 신규 멀티-year deal이 이미 예약.

AMD. MI400 시리즈가 Nvidia Rubin과 같은 시점에 ramp. AWS가 AMD GPU를 이미 일부 도입했고, hyperscaler 표준 옵션으로 자리잡는 중. Trainium과 직접 경쟁 영역은 아니지만 'Nvidia + Trainium + AMD' 트리플 소싱 가능성을 제시.

Tenstorrent·Cerebras·Groq. 스타트업 측. AWS 백로그 자체가 너무 커서 일부 워크로드가 흘러나올 가능성. 특히 Groq의 추론 속도, Cerebras의 단일 칩 사이즈는 Trainium이 못 다루는 niche 시장 점유 가능.

그래서 뭐가 달라지는데 — 페르소나별

ML 엔지니어. Trainium용 SDK인 AWS Neuron을 익혀두는 게 향후 2-3년 가장 안전한 베팅. PyTorch 호환이 있지만 일부 고급 최적화는 Trainium 전용 코드 필요. Nvidia CUDA 단일 베팅 시대가 끝나고 'CUDA + Neuron + TPU XLA' 멀티 백엔드 시대로 진입.

스타트업 창업자. AWS Bedrock에서 Trainium 인스턴스를 사용하면 같은 학습 비용 30-40% 절감. 다만 PyTorch 그대로 쓰는 게 아니라 Neuron 컴파일러 통과가 필요해서 마이그레이션 비용 1-2개월 예상. 24개월 이상 학습 일정이 잡힌 모델 회사는 검토 가치 큼.

투자자. Marvell·Broadcom·Astera Labs 같은 hyperscaler 칩 디자인 파트너 주식이 직접 수혜. Marvell은 이미 +100% 올라 valuation 부담이 있지만 AWS 백로그 $225B를 감안하면 추가 업사이드 여지. Nvidia는 단기 영향은 제한적이지만 장기 hyperscaler 자체 칩 비중 증가가 멀티플 천장.

클라우드 고객 (기업). AWS Bedrock에서 Claude를 호출하면 Trainium 위에서 도는 인스턴스. 같은 토큰 가격에 컴퓨트 효율이 다르므로 향후 12개월 안에 토큰 단가 -10-20% 인하 가능성. AWS-Anthropic 콤보가 가장 가격 경쟁력 있는 옵션이 될 전망.

규제 당국. Hyperscaler vertical integration이 가속되는 신호. AWS-Anthropic의 결합이 (1) 컴퓨트 + 모델 + 데이터를 한 회사가 컨트롤, (2) 다른 모델 회사의 진입 장벽 상승. 미국 FTC와 EU Commission이 이미 Microsoft-OpenAI 관계를 들여다보는 중인데, AWS-Anthropic도 같은 스코프 진입 가능.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지