머스크가 또 AGI 카드 꺼냈어 — Grok 5는 6T 파라미터에 Colossus 2 위에서 돈다
xAI가 Grok 5를 올해 말 출시하겠다고 예고했어. 6조 파라미터, Colossus 2 GPU 1M장 위에서 훈련, 머스크는 이 모델이 'AGI 가능성 10%'라고 자신해. 그런데 안전 프로토콜 미공개가 논란이야.

6조
6조 파라미터. Grok 4의 약 2조에서 3배, GPT-5 Turbo의 약 3.5조에서 거의 두 배야. 머스크가 22일 X에 올린 글에서 "Grok 5는 올해 말, 아마 12월이 될 거야"라고 못 박으면서 함께 공개한 숫자지.
훈련 인프라도 괴물이야. Colossus 2가 이미 550K GPU로 돌아가고 있고, 연말까지 1M 대로 늘린다고 했어. 이게 사실이면 단일 훈련 클러스터로는 지구에서 가장 큰 거야.
이걸 이해하려면
xAI는 창업 2년 반 만에 frontier lab 레이스에 합류했어. 2023년 7월 창업, 2024년 Grok 1, 2025년 Grok 3과 Grok 4, 그리고 올해 말 Grok 5. 이게 가능했던 이유는 두 가지야. 첫째, 머스크가 Tesla와 SpaceX에서 배운 '수직 통합 공장' 접근을 그대로 AI 데이터센터에 적용했어. Colossus 1을 122일 만에 세웠고, Colossus 2는 더 빨리 세우고 있어. 둘째, Nvidia와 직접 수조 원대 계약을 맺으면서 GPU 선점권을 확보했어.
출처: unsplash.com · Unsplash License
하지만 Grok 3, Grok 4는 벤치마크에선 잘 나왔어도 실제 기업 도입에선 Claude·GPT·Gemini에 밀렸어. 이유는 명확해 — 안정성과 안전성 평가가 부족했고, 머스크의 X 발언들이 엔터프라이즈 리스크로 인식됐거든. Grok 5는 그 틀을 깨려는 시도야.
핵심 내용 해부
6T 파라미터가 의미하는 것
파라미터 수 자체는 모델 성능의 유일한 지표는 아니야. 그래도 frontier에서는 여전히 중요해. 아래 표는 지금 공개된 frontier 모델들의 추정 파라미터야.
| 모델 | 추정 파라미터 | 출시 | 아키텍처 |
|---|---|---|---|
| Claude Opus 4.7 | 2.5T (MoE) | 2026 Q1 | Dense + MoE 하이브리드 |
| GPT-5 Turbo | 3.5T (MoE) | 2025 Q4 | Sparse MoE |
| Gemini 3 Ultra | 2.8T (MoE) | 2026 Q1 | Sparse MoE + Pathways |
| Grok 4 | 2T (Dense) | 2025 Q4 | Dense transformer |
| Grok 5 (예정) | 6T (MoE) | 2026 Q4 | Sparse MoE + RL loop |
Grok 4까지 xAI는 'dense-first' 접근을 고수했어. 그게 훈련 효율은 낮지만 추론 일관성이 높거든. Grok 5는 처음으로 sparse MoE로 전환하는데, 총 6T 중 실제 활성화되는 파라미터는 400B 수준일 거라는 추정이 나와. 이게 맞으면 GPT-5 Turbo의 활성화 파라미터 280B보다 40% 더 크지.
Colossus 2의 규모의 경제
Colossus 1은 Memphis에 100K H100으로 시작해서 올해 200K까지 올라갔어. Colossus 2는 완전히 다른 급이야.
| 항목 | Colossus 1 (Memphis) | Colossus 2 (Memphis + 확장) |
|---|---|---|
| GPU 수 (현재) | 200K H100/H200 | 550K B200/GB300 |
| 목표 GPU 수 | 200K | 1M (연말까지) |
| 총 전력 | 250MW | 1.2GW (목표) |
| 훈련 대상 | Grok 3, 4 | Grok 5, 6 |
| 가동 개시 | 2024년 7월 | 2026년 2월 |
1M GPU 클러스터의 의미는 OpenAI의 Stargate, Anthropic의 5GW AWS 계약과 비교할 때 선명해져. xAI는 다른 frontier lab들이 여러 건물·여러 파트너에 나눠 배치한 규모를 단일 클러스터로 집약하고 있어. 이게 훈련 효율에선 유리해. 단점은 전력 리스크 — Memphis 지역 그리드에 천연가스 터빈을 자체로 끌어와서 해결하고 있어.
AGI 10% 발언의 속뜻
머스크는 X에 "Grok 5는 AGI일 가능성이 10%"라고 썼어. 여기서 주의해야 할 건, 머스크가 쓰는 AGI 정의는 OpenAI나 DeepMind가 쓰는 것과 달라. 머스크의 정의는 "대부분의 지적 작업에서 인간 전문가를 능가하는 시스템"인데, 이걸 검증할 벤치마크도 평가 기준도 미공개야. 업계 반응은 두 가지로 갈려. 한쪽은 "파라미터 수와 compute 스케일이 그 정도면 검증해볼 가치가 있다", 다른 한쪽은 "AGI 주장은 펀딩 라운드 전 마케팅 언어"라는 거지.
더 넓은 그림
안전성 이슈가 이번 발표의 가장 논쟁적 부분이야. xAI는 Claude나 GPT처럼 별도의 'Model Card'나 safety evaluation 프로토콜을 아직 공개하지 않고 있어. Grok 4 때도 red-team 결과 공개가 없었고, Grok 5도 머스크가 "필요한 만큼의 안전 작업은 한다"는 구두 발언 외에는 체계적 계획이 공개된 게 없어.
출처: unsplash.com · Unsplash License
이게 왜 중요하냐면, 만약 6T MoE 모델이 정말 머스크 말처럼 AGI급 기능을 보인다면 — 그게 10%든 50%든 — 그 시점에 안전 가드레일이 없는 상태로 상용 API가 열리는 거야. Anthropic은 RSP(Responsible Scaling Policy)를, OpenAI는 Preparedness Framework를 공식 문서화했는데, xAI는 이 자리를 비워두고 있어.
frontier 경쟁의 모든 단계에서 xAI만 '속도 우선, 안전성은 나중'의 노선을 공개적으로 밀고 있어. Grok 5가 잘 되든 안 되든, 이 노선 자체가 업계 규제 지형을 바꾸게 될 거야.
그리고 비즈니스 측면에서도 xAI는 구조적 약점이 있어. 엔터프라이즈 매출이 $500M 수준(Claude $30B ARR, GPT $50B+ 대비). 대부분 수익은 X 구독자의 Premium+ 플랜에서 오고, 기업용 판매 조직이 약해. Grok 5가 기업 시장에서 반등하려면 성능만으로는 부족해 — 안전성 검증과 엔터프라이즈 컴플라이언스가 필수야.
그래서 뭐가 달라지는데
개발자 관점에서 세 가지를 지켜봐야 해.
첫째, API 가격. xAI는 지금까지 Grok 4 API를 GPT-4.5보다 30% 낮게 책정해서 가성비 카드를 썼어. Grok 5가 6T MoE로 오면서 이 가성비가 유지될지가 관건이야. 추정으로는 Claude Opus·GPT-5 Turbo와 같은 라인에서 경쟁할 거 같아.
둘째, 오픈소스 방침. Grok 2는 오픈웨이트로 풀렸고, Grok 3도 출시 1년 뒤 공개됐어. Grok 4는 아직 비공개 상태인데, 머스크는 "Grok N-2는 공개"라는 원칙을 유지할 수 있을지 명확히 안 밝혔어. Grok 5가 AGI급이라면 N-2 공개 정책 자체를 수정할 가능성이 높아.
셋째, Tesla·Optimus 연동. xAI는 Grok의 multimodal·실시간 reasoning을 Tesla의 자율주행과 Optimus 로봇에 내장하는 걸 로드맵으로 가지고 있어. Grok 5가 연말에 출시되면, 2027년 초에 Optimus V3와 FSD v14에 통합될 가능성이 높아. 이게 성공하면 xAI는 순수 LLM 회사가 아니라 physical AI 회사로 재정의돼.
비슷한 맥락에서, 최근 Horizon Robotics의 Xingkong 칩이 '캐빈·드라이브·퓨전'을 하나의 SoC로 묶은 발표와 함께 보면, 2026년은 LLM에서 physical AI로 전장이 이동하는 해라는 게 더 명확해져.
참고 자료
출처
관련 기사

1.75조 달러 — 머스크의 SpaceX-xAI 합병체가 역사상 최대 IPO를 노린다
SpaceX가 xAI를 흡수합병하고 6월 나스닥 상장을 목표로 SEC에 서류를 제출했다. 목표 밸류에이션 1.75조 달러, 최대 750억 달러 조달 예정.

ARC-AGI-3 충격, 최고 AI도 0.37% — AGI는 아직 먼 이야기
ARC Prize 재단이 공개한 ARC-AGI-3 벤치마크에서 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro 모두 1% 미만을 기록했다. 인간은 100% 푸는 문제를 AI는 왜 못 풀까.

ARC-AGI-3가 증명한 불편한 진실 -- 최고의 AI도 0.37%, 인간은 100%
이번 주 가장 충격적인 뉴스. ARC-AGI-3 벤치마크에서 GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6 모두 1% 미만을 기록했어. 인간은 여전히 100%. AI가 정말 '지능적'인 걸까?
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.