Huawei 950PR, 엔비디아 없이 추론하겠다는 중국의 답
화웨이가 추론 전용 AI 칩 950PR을 공개했어. ByteDance와 Alibaba가 대량 주문을 넣었고, 중국 AI 하드웨어 자립화의 상징 제품으로 떠오르는 중.

추론에만 올인한 칩
화웨이가 4월 초에 공개한 950PR은 처음부터 추론(inference) 전용으로 설계됐어. 학습도 같이 돌리겠다는 야심 대신, "학습은 이미 된 모델을 얼마나 싸고 빠르게 서빙하는가"에 집중한 칩이야. 그리고 이게 지금 업계에서 제일 뜨거운 시장이지.
이걸 이해하려면
먼저 왜 "추론 전용 칩"이라는 카테고리가 생겼는지부터 이해해야 해. 2020-2023년까지는 AI 칩 시장이 사실상 "학습 시장"이었어. GPT-3, GPT-4 같은 모델을 만드는 게 가장 비싸고, 그래서 엔비디아 H100이 $30,000씩 팔렸지.
그런데 2024년부터 판이 뒤집혔어. 모델을 한 번 학습해놓으면 그 뒤로는 수조 번의 추론이 돌아가. OpenAI가 하루에 처리하는 ChatGPT 쿼리가 수십억 건인데, 이 추론 비용이 학습 비용을 빠르게 초과하기 시작했어. 2025년 후반에는 "추론이 AI 경제의 80%를 차지한다"는 분석이 나왔지.
| 연도 | AI 연산 비용 분포 |
|---|---|
| 2022 | 학습 70% / 추론 30% |
| 2024 | 학습 40% / 추론 60% |
| 2025 Q4 | 학습 25% / 추론 75% |
| 2026 Q1 (추정) | 학습 20% / 추론 80% |
이 흐름을 읽은 회사들이 "학습과 다른 최적화"를 쫓기 시작했어. 추론은 배치가 작고, 지연 시간이 중요하고, 메모리 대역폭이 연산 속도보다 중요한 경우가 많아. H100 같은 학습 중심 칩은 추론에서 비효율이 커. Groq, Cerebras, SambaNova 같은 회사들이 그 빈틈을 노리고 있고, 이제 화웨이도 그 대열에 들어왔어.
핵심 내용 해부
950PR의 포지셔닝
950PR의 "PR"은 Premium Reasoning을 뜻한다는 해석이 유력해. 화웨이 기존 Ascend 시리즈(910B, 910C)가 학습·추론 겸용 칩이었던 반면, 950PR은 이름부터 추론에 특화된 라인업이야. 공식 스펙은 제한적으로 공개됐지만, 업계 분석에 따르면 대략 이런 방향이야.
- 메모리 대역폭 최적화: HBM3e 적용, H100보다 높은 대역폭 추정
- 저전력 모드: 데이터센터 운영 비용 절감에 방점
- CUDA 대체 스택: CANN(Compute Architecture for Neural Networks) SDK 확장
CUDA가 엔비디아 해자의 90%를 차지한다는 말이 있을 정도로, 소프트웨어 스택은 하드웨어 성능만큼 중요해. 화웨이는 오랫동안 CANN으로 이 해자를 넘으려 시도했고, 950PR 출시와 함께 Hugging Face/PyTorch 주요 모델을 CANN에서 "원클릭" 변환하는 툴체인을 공개했어.
ByteDance·Alibaba의 대량 주문
기사가 특별히 주목받는 이유는 스펙보다 수요 쪽이야. ByteDance(TikTok 모회사)와 Alibaba가 950PR을 대량 주문했다는 보도가 나왔어. 두 회사 모두 자체 AI 서비스(Doubao, Qwen)를 운영하고 있고, 엔비디아 수출 규제 이슈로 H100/H200을 확보하기가 점점 어려워지는 상황이야.
| 고객 | 용도 | 의의 |
|---|---|---|
| ByteDance | Doubao LLM 서빙 | 중국 내 최대 LLM 트래픽 |
| Alibaba | Qwen + 클라우드 서빙 | 오픈소스 모델 호스팅 허브 |
| (루머) Tencent | Hunyuan 서빙 | 미확인 |
이건 단순한 "국내 구매"가 아니야. ByteDance와 Alibaba는 2023년까지 엔비디아 최대 고객 중 하나였고, 두 회사가 화웨이로 상당 물량을 옮긴다는 건 공급망 전환의 실질적 신호야.
왜 지금인가
미국의 대중 AI 칩 수출 규제는 2022년 10월부터 시작해서 계속 강화됐어. H100은 아예 막혔고, H800·H20 같은 다운그레이드 버전도 2023년 이후 추가 제한이 걸렸어. 2025년에는 H20까지 사실상 봉쇄됐고, 중국 기업들은 "자력 갱생" 외에 선택지가 별로 없었어.
화웨이 Ascend 910C가 2024년에 부분적 대안으로 쓰였지만, 학습 성능은 H100의 60~70% 수준이었고 추론 효율도 CUDA 생태계를 따라잡기 힘들었어. 950PR은 이 격차를 "추론에만 집중"이라는 방식으로 우회한 거야. 학습에서 엔비디아를 못 이기니, 수요가 훨씬 큰 추론 시장에서 먼저 경쟁력을 확보하겠다는 전략이지.
더 넓은 그림
추론 칩 시장은 지금 4개 진영으로 나뉘어 있어.
- 엔비디아: H100/H200/B100 — 여전히 절대 강자지만 추론 전용은 아님
- 미국 스타트업: Groq(LPU), Cerebras(웨이퍼 스케일), SambaNova(데이터플로) — 각자 특화 방향
- 하이퍼스케일러 자체 칩: Google TPU v6, AWS Trainium/Inferentia, Meta MTIA, Microsoft Maia
- 중국 대안: 화웨이 Ascend/950PR, Biren, Cambricon
950PR은 네 번째 진영을 의미 있게 끌어올리는 제품이야. 메타 MTIA 450/500이 2027년 대량 배치 예정이고 (관련 기사), 구글 TPU v6도 추론 특화 라인을 확장하는 중이야. "엔비디아 외 옵션"이 각자의 생태계 안에서는 이미 현실이 됐고, 화웨이는 그 옵션의 중국 버전을 맡고 있어.
그런데 여기엔 복잡한 지정학이 엮여 있어. 미국 기업이 화웨이 칩을 쓰는 건 제재 리스크 때문에 불가능해. 반대로 중국 국영 기업과 대형 플랫폼은 엔비디아 확보가 사실상 불가능해졌어. AI 인프라가 "미국 블록 / 중국 블록"으로 갈라지는 중이고, 950PR은 그 경계선을 더 뚜렷하게 만드는 칩이야.
그래서 뭐가 달라지는데
국내 개발자 입장에서 950PR 자체를 살 일은 거의 없어. 하지만 흐름은 알아둘 가치가 있어. 몇 가지 관점.
추론 인프라 가격이 전체적으로 내려갈 가능성이 높아. 화웨이가 중국 시장에서 공격적으로 단가를 낮추면, Groq·Cerebras 같은 미국 경쟁사도 압박을 받아. 2025년 하반기부터 Llama 4 70B 토큰당 가격이 계속 떨어지고 있는 건 같은 흐름의 일부야.
오픈 웨이트 모델의 지정학적 가치가 커져. 추론 칩이 블록별로 갈린다는 건, 같은 Llama 4·Qwen·Gemma 4 모델이 서로 다른 하드웨어에서 돌아간다는 뜻이야. 모델 자체는 글로벌 자산인데 실행 환경은 블록별로 분리되는 이상한 구조지. 멀티 클라우드·멀티 하드웨어 전략이 단순한 비용 최적화가 아니라 리스크 관리 차원에서도 중요해져.
한국 NPU 기업에 기회가 될 수 있어. 퓨리오사AI의 RNGD가 상업 단계에 들어온 것(관련 기사)도 이 맥락이야. 미국-중국 양극화가 심해질수록, "제3지대" 반도체 공급자의 전략적 가치가 커지는 거지.
참고 자료
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.



