데일리 브리핑2026년 4월 5일 (일)

4월 5일 데일리 브리핑

구글이 Gemma 4를 Apache 2.0으로 풀었고, MS는 자체 파운데이션 모델 3종을 공개. 화웨이 950PR과 퓨리오사 RNGD로 추론 칩 경쟁이 본격화.

오늘의 3줄 요약

구글이 Gemma 4를 Apache 2.0 라이선스로 풀었어. 2B·4B·26B·31B, 140개 언어, 256k 컨텍스트. 첫 "족쇄 없는" Gemma 세대야.
마이크로소프트가 MAI-Voice-1·MAI-Transcribe-1·MAI-Image-1 세 개 자체 파운데이션 모델을 Azure Foundry에 올렸어. OpenAI 의존을 줄이려는 수년짜리 베팅의 첫 공개 장.
화웨이 950PR(추론 전용 칩)과 퓨리오사AI RNGD(4,000대 상업 운영)가 같은 주에 움직이면서, 엔비디아 외 추론 옵션이 전 세계적으로 실체가 됐어.

TOP

1. Gemma 4 나왔어, 드디어 Apache 2.0으로

구글이 4월 2일 Gemma 4를 네 사이즈로 풀었어(2B/4B/26B/31B). 140개 언어, 256k 컨텍스트, 그리고 완전한 Apache 2.0. 4세대 만에 처음으로 라이선스 족쇄가 사라졌어. 상업 배포, 파인튜닝한 파생 모델의 상업 판매까지 전부 OK. Qwen 압박, gpt-oss의 Apache 2.0 선례, 엔터프라이즈 수요가 겹친 결과야. → 기사 읽기

2. Microsoft, 자체 파운데이션 모델 3종 풀었어

MS가 MAI-Transcribe-1(25개 언어 ASR, Azure Fast 대비 2.5배 빠름), MAI-Voice-1(1초 연산 = 60초 오디오, 커스텀 보이스), MAI-Image-1(preview)를 Azure Foundry에 올렸어. Inflection AI 팀 영입 후 2년 만에 나온 결과물. 간단한 음성/이미지는 MAI로 돌리고 복잡 추론만 GPT-5.4로 보내는 라우팅 전략이 시작돼. → 기사 읽기

3. Huawei 950PR, 추론 전용 칩으로 엔비디아 정면 도전

화웨이가 추론(inference) 전용 칩 950PR을 공개. HBM3e, CANN SDK 확장, 원클릭 PyTorch 변환 툴체인 동반. ByteDance와 Alibaba가 대량 주문을 넣었다는 보도가 핵심이야. 미국 수출 규제로 H100/H800/H20 봉쇄 상황에서, 중국 AI 인프라가 "자체 추론 블록"으로 굳어지는 신호. → 기사 읽기

4. 퓨리오사AI RNGD 4,000대, 드디어 상업 운영

국내 AI 반도체 스타트업 퓨리오사AI가 2세대 NPU RNGD 4,000대 초도 물량을 확보하고 상업 운영 단계 진입. 150W에서 70B LLM 서빙이 타겟이야. 네이버클라우드·LG AI연구원·통신 3사가 유력 고객. 한국 NPU가 실전 서빙 환경에 들어간 첫 사례. → 기사 읽기

BUZZ

X, Musk의 Grok 이미지 프롬프트 스레드 1.6M 뷰 — a16z 파트너 Justine Moore가 Grok으로 이미지/영상 프롬프트를 다듬는 워크플로를 공유, 머스크가 리트윗하며 바이럴.
r/LocalLLaMA, Qwen 3.6 Plus 스폿 (621 upvotes) — Agentic 기능을 갖춘 Qwen 3.6 Plus의 등장이 LocalLLaMA 상단을 차지.
TurboQuant / RaBitQ 해설 스레드 (625 upvotes) — 구글이 언급한 TurboQuant 효율화 기법의 원리와 RaBitQ와의 관계를 정리.

PAPER

Improvisational Games as a Benchmark for Social Intelligence of AI Agents: The Case of Connections — 쉽게 말하면, 지금까지 AI 벤치마크는 "혼자 문제 풀기" 중심이었는데, 이 논문은 즉흥 게임(improv)을 통해 여러 에이전트가 협력하는 "사회적 지능"을 측정하는 새 프레임을 제안했어.

QUICK

Gemini 3.1 Pro, 16개 벤치 중 13개 선두 (GPT-5.4 Pro와 동률, API 비용 약 1/3)
GPT-5.4 Thinking, OSWorld-V 75%로 인간 baseline 돌파
Claude Mythos 5, 10조 파라미터 루머 (Opus 상위 계층 내부 문서)
Mercor 데이터 벤더 보안 사고, 주요 AI 랩 공동 조사
Anthropic, 4/4부터 Claude 구독으로 OpenClaw 서드파티 커버 종료
Macy's Ask Macy, Gemini 기반 쇼핑 어시스턴트 출시
Alibaba Amap, 생성 모델로 식당 인테리어 3D 쇼케이스
Google Veo 3.1 Fast, 4/7부터 가격 인하
OpenAI $122B 확정 (실리콘밸리 역대 최대 라운드)
Anthropic $30B 라운드, $380B 밸류
xAI $20B, Waymo $16B 메가라운드 (Q1 전체의 63%)
Starcloud, 우주 데이터센터 $170M Series A
모빌린트·포스코DX NPU 협약 (현장 실시간 제어)
GDIN, K-Global 2026 AI 초기 스타트업 해외진출 지원
GitHub Spec Kit, Spec-Driven Dev 확산
Deepinfra·Groq 추론 토큰가 새 최저치
Meta MTIA 450/500, 2027 대량 배치 예고

GITHUB

github/spec-kit — Spec-Driven Development 툴킷. AI가 구조화된 스펙에서 코드 생성·유지보수. Copilot/Claude/Gemini CLI 호환.
Mozilla-Ocho/llamafile — 단일 파일로 LLM 실행. 4GB 파일 드래그 → 더블클릭 → API 즉시. 비개발자 팀원에게 Ollama보다 간단한 대안.
m0at/rvllm — Rust로 작성된 고성능 LLM 추론 엔진. vLLM 드롭인 대체제를 목표.