TOPHuaweiAI ChipChina

Huawei 950PR, 엔비디아 없이 추론하겠다는 중국의 답

Q: 이 뉴스가 왜 중요한가?

화웨이가 4월 초에 공개한 950PR은 처음부터 추론(inference) 전용으로 설계됐어. 학습도 같이 돌리겠다는 야심 대신, "학습은 이미 된 모델을 얼마나 싸고 빠르게 서빙하는가"에 집중한 칩이야. 그리고 이게 지금 업계에서 제일 뜨거운 시장이지.

Q: 이 기사에 관련된 주요 기업이나 기관은?

이 기사에서 다루는 주요 기업/기관은 Huawei, AI Chip, China, Inference, Hardware 등입니다.

Q: 이 기사는 언제 발행되었나?

이 기사는 2026-04-05에 spoonai에서 발행되었습니다.

Q: 이 기사에서 다루는 주요 주제는?

이 기사는 다음 주제를 다룹니다: 추론에만 올인한 칩, 이걸 이해하려면, 핵심 내용 해부, 더 넓은 그림, 그래서 뭐가 달라지는데.

화웨이가 추론 전용 AI 칩 950PR을 공개했어. ByteDance와 Alibaba가 대량 주문을 넣었고, 중국 AI 하드웨어 자립화의 상징 제품으로 떠오르는 중.

2026년 4월 5일 (일)·4분 소요·

추론에만 올인한 칩

화웨이가 4월 초에 공개한 950PR은 처음부터 추론(inference) 전용으로 설계됐어. 학습도 같이 돌리겠다는 야심 대신, "학습은 이미 된 모델을 얼마나 싸고 빠르게 서빙하는가"에 집중한 칩이야. 그리고 이게 지금 업계에서 제일 뜨거운 시장이지.

이걸 이해하려면

먼저 왜 "추론 전용 칩"이라는 카테고리가 생겼는지부터 이해해야 해. 2020-2023년까지는 AI 칩 시장이 사실상 "학습 시장"이었어. GPT-3, GPT-4 같은 모델을 만드는 게 가장 비싸고, 그래서 엔비디아 H100이 $30,000씩 팔렸지.

그런데 2024년부터 판이 뒤집혔어. 모델을 한 번 학습해놓으면 그 뒤로는 수조 번의 추론이 돌아가. OpenAI가 하루에 처리하는 ChatGPT 쿼리가 수십억 건인데, 이 추론 비용이 학습 비용을 빠르게 초과하기 시작했어. 2025년 후반에는 "추론이 AI 경제의 80%를 차지한다"는 분석이 나왔지.

연도	AI 연산 비용 분포
2022	학습 70% / 추론 30%
2024	학습 40% / 추론 60%
2025 Q4	학습 25% / 추론 75%
2026 Q1 (추정)	학습 20% / 추론 80%

이 흐름을 읽은 회사들이 "학습과 다른 최적화"를 쫓기 시작했어. 추론은 배치가 작고, 지연 시간이 중요하고, 메모리 대역폭이 연산 속도보다 중요한 경우가 많아. H100 같은 학습 중심 칩은 추론에서 비효율이 커. Groq, Cerebras, SambaNova 같은 회사들이 그 빈틈을 노리고 있고, 이제 화웨이도 그 대열에 들어왔어.

핵심 내용 해부

950PR의 포지셔닝

950PR의 "PR"은 Premium Reasoning을 뜻한다는 해석이 유력해. 화웨이 기존 Ascend 시리즈(910B, 910C)가 학습·추론 겸용 칩이었던 반면, 950PR은 이름부터 추론에 특화된 라인업이야. 공식 스펙은 제한적으로 공개됐지만, 업계 분석에 따르면 대략 이런 방향이야.

메모리 대역폭 최적화: HBM3e 적용, H100보다 높은 대역폭 추정
저전력 모드: 데이터센터 운영 비용 절감에 방점
CUDA 대체 스택: CANN(Compute Architecture for Neural Networks) SDK 확장

CUDA가 엔비디아 해자의 90%를 차지한다는 말이 있을 정도로, 소프트웨어 스택은 하드웨어 성능만큼 중요해. 화웨이는 오랫동안 CANN으로 이 해자를 넘으려 시도했고, 950PR 출시와 함께 Hugging Face/PyTorch 주요 모델을 CANN에서 "원클릭" 변환하는 툴체인을 공개했어.

ByteDance·Alibaba의 대량 주문

기사가 특별히 주목받는 이유는 스펙보다 수요 쪽이야. ByteDance(TikTok 모회사)와 Alibaba가 950PR을 대량 주문했다는 보도가 나왔어. 두 회사 모두 자체 AI 서비스(Doubao, Qwen)를 운영하고 있고, 엔비디아 수출 규제 이슈로 H100/H200을 확보하기가 점점 어려워지는 상황이야.

고객	용도	의의
ByteDance	Doubao LLM 서빙	중국 내 최대 LLM 트래픽
Alibaba	Qwen + 클라우드 서빙	오픈소스 모델 호스팅 허브
(루머) Tencent	Hunyuan 서빙	미확인

이건 단순한 "국내 구매"가 아니야. ByteDance와 Alibaba는 2023년까지 엔비디아 최대 고객 중 하나였고, 두 회사가 화웨이로 상당 물량을 옮긴다는 건 공급망 전환의 실질적 신호야.

왜 지금인가

미국의 대중 AI 칩 수출 규제는 2022년 10월부터 시작해서 계속 강화됐어. H100은 아예 막혔고, H800·H20 같은 다운그레이드 버전도 2023년 이후 추가 제한이 걸렸어. 2025년에는 H20까지 사실상 봉쇄됐고, 중국 기업들은 "자력 갱생" 외에 선택지가 별로 없었어.

화웨이 Ascend 910C가 2024년에 부분적 대안으로 쓰였지만, 학습 성능은 H100의 60~70% 수준이었고 추론 효율도 CUDA 생태계를 따라잡기 힘들었어. 950PR은 이 격차를 "추론에만 집중"이라는 방식으로 우회한 거야. 학습에서 엔비디아를 못 이기니, 수요가 훨씬 큰 추론 시장에서 먼저 경쟁력을 확보하겠다는 전략이지.

더 넓은 그림

추론 칩 시장은 지금 4개 진영으로 나뉘어 있어.

엔비디아: H100/H200/B100 — 여전히 절대 강자지만 추론 전용은 아님
미국 스타트업: Groq(LPU), Cerebras(웨이퍼 스케일), SambaNova(데이터플로) — 각자 특화 방향
하이퍼스케일러 자체 칩: Google TPU v6, AWS Trainium/Inferentia, Meta MTIA, Microsoft Maia
중국 대안: 화웨이 Ascend/950PR, Biren, Cambricon

950PR은 네 번째 진영을 의미 있게 끌어올리는 제품이야. 메타 MTIA 450/500이 2027년 대량 배치 예정이고 (관련 기사), 구글 TPU v6도 추론 특화 라인을 확장하는 중이야. "엔비디아 외 옵션"이 각자의 생태계 안에서는 이미 현실이 됐고, 화웨이는 그 옵션의 중국 버전을 맡고 있어.

그런데 여기엔 복잡한 지정학이 엮여 있어. 미국 기업이 화웨이 칩을 쓰는 건 제재 리스크 때문에 불가능해. 반대로 중국 국영 기업과 대형 플랫폼은 엔비디아 확보가 사실상 불가능해졌어. AI 인프라가 "미국 블록 / 중국 블록"으로 갈라지는 중이고, 950PR은 그 경계선을 더 뚜렷하게 만드는 칩이야.

그래서 뭐가 달라지는데

국내 개발자 입장에서 950PR 자체를 살 일은 거의 없어. 하지만 흐름은 알아둘 가치가 있어. 몇 가지 관점.

추론 인프라 가격이 전체적으로 내려갈 가능성이 높아. 화웨이가 중국 시장에서 공격적으로 단가를 낮추면, Groq·Cerebras 같은 미국 경쟁사도 압박을 받아. 2025년 하반기부터 Llama 4 70B 토큰당 가격이 계속 떨어지고 있는 건 같은 흐름의 일부야.

오픈 웨이트 모델의 지정학적 가치가 커져. 추론 칩이 블록별로 갈린다는 건, 같은 Llama 4·Qwen·Gemma 4 모델이 서로 다른 하드웨어에서 돌아간다는 뜻이야. 모델 자체는 글로벌 자산인데 실행 환경은 블록별로 분리되는 이상한 구조지. 멀티 클라우드·멀티 하드웨어 전략이 단순한 비용 최적화가 아니라 리스크 관리 차원에서도 중요해져.

한국 NPU 기업에 기회가 될 수 있어. 퓨리오사AI의 RNGD가 상업 단계에 들어온 것(관련 기사)도 이 맥락이야. 미국-중국 양극화가 심해질수록, "제3지대" 반도체 공급자의 전략적 가치가 커지는 거지.

Huawei 950PR, 엔비디아 없이 추론하겠다는 중국의 답

추론에만 올인한 칩

이걸 이해하려면