'Opus를 넘었다'는데 증거는 트윗 한 줄뿐이야

2026년 6월 28일, 일론 머스크가 X에 글 하나를 올렸어. Grok 4.5가 SpaceX랑 Tesla 사내에서 프라이빗 베타에 들어갔다는 거야. 그리고 딸려온 문장이 진짜 셌어. "초기 평가에서 성능이 Opus에 근접하거나, 어쩌면 능가한다(close to, perhaps exceeding Opus)." Opus는 Anthropic의 Claude Opus 4.8, 지금 프론티어 모델 중에서도 코딩·추론으로 제일 빡센 놈이야. 그걸 넘었다고 머스크가 직접 말한 거지.

근데 여기서 딱 멈춰서 생각해봐야 돼. 이 주장을 뒷받침하는 게 뭐가 있냐고 물으면, 솔직히 아무것도 없어. 공개된 벤치마크 점수 없고, 시스템 카드(모델 카드) 없고, API도 없고, 외부에서 만져볼 수 있는 접근권도 없어. 남은 건 머스크의 트윗 한 줄, 그리고 그걸 받아쓴 기사들뿐이야. Tech Times가 아예 제목에 박아버렸어. "공개 접근 없음, 독립 벤치마크 없음."

그러니까 이 글을 읽는 내내 머릿속에 하나만 붙들고 가자. "Opus를 넘었다"는 건 사실이 아니라 회사(정확히는 CEO)의 주장이야. 검증된 팩트랑 마케팅 멘트를 섞으면 안 돼. 이번 기사에서 팩트로 확정된 건 딱 세 덩어리야 — 발표가 있었다는 것, 모델의 스펙(1.5조 파라미터·V9 기반·Cursor 데이터)이 이렇게 소개됐다는 것, 그리고 SpaceX·Tesla에서 먼저 돌린다는 것. 성능이 실제로 얼마나 나오는지는 지금 그 누구도 모른다는 게 진짜 팩트야.

그래서 이 사건의 진짜 흥미로운 지점은 '누가 세계 최강이냐'가 아니야. 오히려 xAI가 어떤 방식으로 모델을 만들고, 어디서 먼저 굴리는가라는 전략이 훨씬 읽을거리가 많아. Cursor 코딩 데이터로 훈련한 '데이터 플라이휠', 그리고 소비자 챗봇이 아니라 자기네 엔지니어링 회사부터 도그푸딩하는 선택. 이 두 개가 이번 발표의 진짜 알맹이야. 성능 주장은 검증되기 전까지 괄호 치고 읽자.

판 위에 올라온 선수들 — xAI, Anthropic, 그리고 머스크 제국

먼저 xAI. 머스크가 2023년에 세운 AI 회사고, Grok이 대표 제품이야. X(옛 트위터)에 붙어서 실시간 데이터를 빨아들이는 게 초기 세일즈 포인트였는데, 최근엔 그 이미지에서 벗어나서 '진짜 프론티어 추론 모델' 쪽으로 방향을 확 틀었어. Grok 4 시리즈부터 코딩·수학·추론 벤치를 정면으로 노렸고, 이번 Grok 4.5는 그 연장선의 최신판이야. 특이한 건 xAI가 머스크의 다른 회사들(SpaceX, Tesla, X)이랑 물리적으로도 자원적으로도 얽혀 있다는 거야. GPU, 인재, 데이터, 심지어 테스트베드까지 제국 내부에서 순환해.

상대편엔 Anthropic이 있어. Claude Opus 4.8은 이번 머스크 주장의 기준점(benchmark를 대체하는 '비교 대상')으로 소환됐지. 근데 여기서 재밌는 비대칭이 하나 있어. Anthropic은 메이저 버전마다 공개 모델 카드랑 벤치마크 스위트를 꼬박꼬박 내놨어. 즉 Opus 쪽은 '검증 가능한 문서'가 존재하는데, Grok 4.5 쪽은 문서가 없어. 그러니까 지금 상황은 "문서 있는 모델 vs 트윗 있는 모델"의 비교인 셈이야. 심지어 Anthropic은 Opus의 파라미터 수를 공개한 적도 없어서, 1.5조 대 몇 조 하는 '숫자 비교'조차 성립이 안 돼.

그리고 이 판을 진짜 특이하게 만드는 게 세 번째 플레이어 — SpaceX랑 Tesla야. 보통 새 AI 모델은 소비자용 앱이나 API로 먼저 풀려. 근데 xAI는 자기 계열사 엔지니어들한테 먼저 쥐여줬어. 로켓 설계하고 자율주행 코드 짜는 사람들이 첫 사용자인 거지. 이건 우연이 아니라 메시지야. "우리 모델은 채팅 장난감이 아니라 하드코어 엔지니어링 도구다"라는 포지셔닝. Cursor 코딩 데이터를 얹은 것도 같은 맥락이고.

물론 이 구조엔 그림자도 있어. 심사위원이 곧 선수인 상황이거든. xAI가 모델을 만들고, 머스크 회사가 쓰고, 머스크가 성능을 평가하고, 머스크가 트윗으로 발표해. 이 폐쇄 루프 안에서 나온 "Opus 넘었다"는 자기평가야. 외부 벤치마크가 없다는 건 단순히 '아직 안 냈다'가 아니라, 평가의 독립성이 통째로 빠져 있다는 뜻이기도 해. 선수들 소개를 마치면서 이 점을 꼭 기억해두자.

실제로 발표된 것과, 발표되지 '않은' 것

자, 팩트만 추려보자. 머스크의 원문 트윗은 이런 골자였어. "Grok 4.5는 우리의 1.5조(1.5T) V9 파운데이션 모델을 기반으로 하고, 보충 훈련에 Cursor 데이터를 더했으며, 지금 SpaceX와 Tesla에서 프라이빗 베타 중이다. 초기 평가는 Opus에 근접하거나 어쩌면 능가하는 성능을 보인다. RL(강화학습)이 계속 모델을 크게 개선하고 있다." 여기까지가 '발표된 것'이야.

기술 스펙을 좀 더 뜯어보면 이래. V9는 xAI의 새 파운데이션 모델이고, 파라미터가 1.5조 개래. 보도에 따르면 이전 Grok 4 계열을 굴리던 V8-small 구조보다 대략 3배 큰 규모라고 해. 이 V9의 베이스 트레이닝(사전학습)이 끝난 게 5월 26일이고, 그 위에 Cursor라는 AI 코드 에디터에서 나온 코딩 데이터를 '보충 훈련'으로 얹었어. 코딩·기술 역량을 뾰족하게 만들려는 의도가 명확해. 그리고 이걸 소비자한테 풀기 전에 SpaceX·Tesla 사내에서 먼저 돌려. 여기까지는 스펙 소개로서 일관되게 보도됐어.

이제 발표되지 '않은' 걸 보자. 이게 사실 더 중요해. 공개 벤치마크 점수 0. 시스템 카드 0. 아키텍처 논문 0. 공개 API 스펙 0. 외부 재현 0. Tech Times는 이걸 "스크린샷 하나, 인용문 하나, 그리고 xAI 누구도 문서로 확인해준 적 없는 1.5T라는 숫자"라고 표현했어. 심지어 "Opus에 근접하거나 능가"라는 그 유명한 문장조차, 일부 정리 기사에선 커뮤니티가 옮긴 인용이지 측정된 벤치마크가 아니라고 지적하고 있어. 즉 성능 서사 전체가 '측정'이 아니라 '전언'에 기대고 있는 거야.

항목 발표/주장된 내용 검증 상태
발표 주체·시점 일론 머스크, 2026-06-28, X 게시물 확인됨 (원문 존재)
파운데이션 모델 V9, 1.5조 파라미터, 베이스 학습 5/26 종료 회사 주장 (외부 검증 없음)
보충 훈련 데이터 Cursor 코딩 데이터 추가 회사 주장
배포 형태 SpaceX·Tesla 사내 프라이빗 베타 확인됨 (공개 접근 없음)
성능 "Opus에 근접, 어쩌면 능가" 미검증 (벤치·시스템카드·API 전무)
공개 접근 없음 (API·앱 배포 없음) 확인됨
로드맵 2026년 매월 새 모델, Grok 5는 10조 파라미터 목표 회사 주장

표를 보면 명확해져. '확인됨'으로 표시된 건 대부분 "발표가 있었다"거나 "공개 접근이 없다" 같은 형식적 사실이야. 정작 우리가 궁금한 성능은 통째로 '미검증' 칸에 들어가. 이 갭이 이번 사건의 전부라고 봐도 돼.

각 진영이 이 발표에서 챙기는 것

먼저 xAI(와 머스크)가 챙기는 건 명백해. 내러티브 주도권이야. 벤치마크를 내면 숫자로 검증당하지만, 트윗으로 "Opus 넘었다"고 던지면 검증당하기 전까지 몇 주에서 몇 달 동안 프론티어 대화의 중심에 설 수 있어. 실제로 이 발표 하나로 AI 미디어가 며칠간 Grok 4.5 얘기로 도배됐잖아. 접근권이 없으니 반박도 어려워. 마케팅 관점에선 저비용 고효율의 화제몰이야.

SpaceX랑 Tesla는 뭘 얻냐면, 공짜 프론티어 도구 + 도그푸딩 데이터야. 사내 엔지니어들이 로켓·차량 코드를 짜면서 Grok 4.5를 쓰면, 그 사용 로그가 다시 xAI로 흘러들어가서 모델을 다듬는 재료가 돼. Cursor 데이터로 코딩을 뾰족하게 만들고, 그걸 진짜 하드코어 엔지니어링 현장에서 굴려서 또 데이터를 뽑는 거지. 이게 소위 '데이터 플라이휠'이야. 코딩 에이전트 사용 → 로그 → 재훈련 → 더 나은 에이전트 → 더 많은 사용, 이 바퀴가 돌수록 남의 데이터 없이도 자가 개선이 가능해진다는 그림이야.

머스크 개인이 챙기는 것도 있어. 제국의 시너지 증명. SpaceX, Tesla, xAI, X를 하나의 유기체처럼 묶어서 "우리는 서로의 자원을 순환시켜 남들이 못 하는 걸 한다"는 서사를 강화해. AI 랩이 실제 제조·우주·자율주행 회사를 테스트베드로 갖고 있다는 건 OpenAI나 Anthropic한테는 없는 카드거든. 이건 투자자·인재 유치용 스토리로도 강력해.

근데 챙기는 것만큼 내주는 것도 짚자. xAI가 포기한 건 **신뢰성의 통화(currency)**야. 프론티어 랩들이 공들여 쌓아온 규범 — 모델 카드 공개, 서드파티 평가 제출, 안전성 문서화 — 을 이번엔 건너뛰었어. 단기적으론 화제를 얻지만, "또 머스크의 과장인가"라는 의심을 쌓아. Grok 4 때도 벤치마크 수치와 실사용 체감이 안 맞는다는 비판이 있었던 전력이 있어서, 이번 "Opus 넘었다"도 시장이 반쯤 걸러 듣는 분위기야. 화제성과 신뢰성을 맞바꾼 거래인 셈이지.

예전에도 이런 적 있었지 — 성공한 뻥과 망한 뻥

이런 '문서 없는 성능 주장'은 AI판에서 처음이 아니야. 패턴을 보면 두 갈래로 갈려. 하나는 나중에 실물이 따라와서 주장이 대체로 맞았던 경우, 다른 하나는 실물이 안 따라오거나 실사용에서 무너져서 주장이 공기로 흩어진 경우야. 이번 Grok 4.5가 어느 쪽으로 갈지는 아직 몰라. 근데 과거 사례를 보면 판단 기준은 잡을 수 있어.

먼저 '대체로 맞았던' 쪽. 여러 프론티어 랩이 GA(정식 출시) 전에 프리뷰나 초기 접근을 먼저 풀고 "역대 최고"라고 예고한 뒤, 실제 벤치마크가 나오면서 상당 부분 입증된 사례들이 있었어. 핵심 공통점은 결국 외부가 만질 수 있게 열었고, 독립 평가가 뒤따랐다는 거야. 주장과 검증 사이의 시차가 짧고, 검증을 회피하지 않았지. 이런 경우 초기 과장은 '선(先)마케팅'으로 용인됐어.

반대로 '망한' 쪽도 많아. 화려한 데모나 사장이 던진 자기평가 수치만 돌고, 정작 실사용에선 체감이 안 나오거나 벤치마크 조건을 유리하게 골랐다는 게 들통난 케이스들. Grok 4 자체도 "기록적인 벤치마크가 실사용 성능과 안 맞는다"는 리뷰가 나온 전례가 있어. 데모와 프로덕션의 간극, 그리고 유리한 조건에서만 나오는 숫자 — 이게 무너진 주장들의 공통 증상이야. 접근권을 계속 막아둔 채 자기평가만 반복하면 이쪽으로 미끄러지기 쉬워.

그래서 Grok 4.5를 판단하는 리트머스는 딱 하나야. 얼마나 빨리, 얼마나 열린 형태로 외부 검증에 노출되는가. 매월 새 모델을 내겠다는 로드맵대로 실제 API·시스템 카드·서드파티 벤치가 따라오면 이번 주장은 '선마케팅'으로 정당화돼. 반대로 접근은 계속 사내에만 갇혀 있고 트윗 자랑만 반복되면, 이건 검증을 회피하는 신호로 읽힐 거야. 지금 시점에선 어느 쪽도 단정 못 해. 그래서 '미검증'이라고 반복하는 거고.

경쟁사들은 어떻게 받아칠까

Anthropic은 아마 가장 침착하게 대응할 거야. 이유는 간단해. 이미 Opus 4.8의 모델 카드랑 벤치마크를 다 공개해뒀거든. 즉 "우리는 숫자를 공개했고 서드파티가 검증했다. 그쪽은?"이라는 포지션을 그냥 유지하기만 하면 돼. 검증 가능성 자체가 방어막이야. 굳이 트윗 배틀에 끼어들 필요 없이, '문서 있는 쪽'이라는 프레임을 조용히 강화하는 게 최선의 카운터야. 이건 '반박'이 아니라 '대비되는 존재'로 이기는 방식이지.

OpenAI랑 Google은 결이 좀 달라. 이들은 소비자 유통(ChatGPT, Gemini/검색·안드로이드)이라는 거대한 배포 채널을 가지고 있어. xAI가 "사내에서만 돌린다"로 화제를 만드는 동안, 이쪽은 "수억 명이 지금 당장 쓴다"로 맞서. 즉 xAI의 무기가 '스토리와 스펙'이라면 이들의 무기는 '실사용 규모와 접근성'이야. 프라이빗 베타의 반대편에서, 압도적인 퍼블릭 배포로 존재감을 눌러버리는 전략이지.

그리고 데이터 플라이휠 대결도 볼만해. xAI가 Cursor 코딩 데이터랑 SpaceX·Tesla 도그푸딩으로 플라이휠을 돌린다면, 경쟁사들은 이미 각자의 거대한 코딩 생태계를 갖고 있어. GitHub·Copilot 축, 그리고 수많은 코딩 에이전트 제품에서 나오는 실사용 로그 말이야. "코딩 데이터로 자가 개선"이라는 아이디어 자체는 xAI 독점이 아니야. 오히려 규모로 보면 xAI가 후발일 수도 있어. 그래서 경쟁사 입장에선 xAI의 플라이휠 서사에 "우리는 이미 더 큰 걸 돌리고 있다"로 대응할 여지가 커.

마지막으로 가장 강력한 카운터는 사실 경쟁사가 하는 게 아니라 시장이 하는 거야. xAI가 접근권을 열고 서드파티 벤치가 돌아가는 순간, 주장은 진실 아니면 과장으로 판명 나. 경쟁사들이 제일 바라는 시나리오는 바로 그 검증의 순간이 오는 거고, 어쩌면 자기들이 나서서 "그럼 같은 벤치에서 붙자"고 압박할 수도 있어. 즉 경쟁사들의 최선의 수는 논쟁을 '스펙 자랑'에서 '공개 검증'으로 끌고 가는 거야. 그게 문서 없는 쪽엔 제일 아픈 프레임이니까.

그래서 뭐가 바뀌는데 — 입장별로

개발자·엔지니어 입장에선 지금 당장 바뀌는 건 사실상 없어. Grok 4.5는 만져볼 수가 없거든. API도, 공개 앱도 없어. 그러니까 "Grok 4.5로 갈아탈까?"를 고민하는 건 시기상조야. 지금 할 수 있는 건 두 가지뿐이야 — 매월 새 모델을 내겠다는 로드맵이 실제로 지켜지는지 캘린더에 체크해두는 것, 그리고 실제 API랑 시스템 카드가 나오는 순간 '자기평가'가 아닌 '독립 벤치'로 판단하는 것. 그 전까지 성능 얘기는 참고만 하고 의사결정엔 넣지 마.

AI 업계·창업자 입장에선 오히려 배울 게 있어. 이번 발표는 '데이터 플라이휠 + 도그푸딩'을 하나의 서사로 묶는 법의 교과서 사례야. 자기 계열사를 첫 사용자로 삼아 실사용 데이터를 뽑고, 그걸 재훈련에 태우는 구조. 이 구조 자체는 실제로 강력해. 다만 교훈은 두 겹이야 — 플라이휠은 진짜 경쟁력이 될 수 있지만, 그걸 '성능 주장'으로 포장할 땐 검증을 동반해야 신뢰를 잃지 않는다는 것. 화제와 신뢰를 맞바꾸는 순간을 조심하라는 얘기야.

투자자·시장 관찰자 입장에선 신호와 소음을 분리하는 훈련이라고 봐. 신호는 이거야 — xAI가 프론티어 경쟁에서 공격적인 릴리스 케이던스(매월)를 선언했고, 제국 내부 자원 순환이라는 구조적 이점을 실제로 가동하기 시작했다는 것. 소음은 이거야 — "Opus 넘었다"는 미검증 자기평가. 신호는 진지하게 받되, 소음은 검증되기 전까지 밸류에이션에 반영하지 마. (물론 이건 투자 조언이 아니야. 그냥 정보를 읽는 태도 얘기야.)

일반 사용자 입장에선 솔직히 지금은 구경거리에 가까워. 당장 쓸 수 있는 것도 아니고, 성능이 진짜인지도 몰라. 다만 이 사건이 보여주는 큰 그림은 알아둘 만해 — 프론티어 AI 경쟁이 '누가 먼저 공개하느냐'에서 '누가 먼저, 얼마나 열린 형태로 검증받느냐'로 무게중심이 옮겨가고 있다는 것. 앞으로 어떤 랩이든 "역대 최강"이라고 하면, 그 옆에 벤치마크랑 시스템 카드가 붙어 있는지부터 확인하는 습관을 들이면 돼. 그게 이번 Grok 4.5가 우리한테 준 진짜 교훈이야.

🥄 남은 궁금증 세 가지

— 그래서 Grok 4.5가 진짜 Opus 4.8보다 좋은 거야? 지금은 아무도 몰라. 그게 정답이야. 머스크가 "근접하거나 능가한다"고 말했지만 공개 벤치마크도, 시스템 카드도, 외부 접근권도 없어. 검증할 방법 자체가 없으니 '좋다/나쁘다'가 아니라 '아직 확인 불가'가 맞는 표현이야.

— 나도 Grok 4.5 써볼 수 있어? 아니, 못 써. 지금은 SpaceX랑 Tesla 사내 엔지니어들만 쓰는 프라이빗 베타야. 공개 API도, 일반용 앱 배포도 없어. 나중에 열릴 수 있지만 언제일지, 어떤 형태일지는 발표 안 됐어.

— Cursor 데이터로 훈련했다는 게 왜 중요해? 코딩 능력을 뾰족하게 만드는 '데이터 플라이휠' 전략이라 그래. 코딩 에이전트 사용 로그를 다시 훈련에 태워서 모델을 개선하는 구조인데, SpaceX·Tesla에서 도그푸딩하면 그 바퀴가 더 빨리 돌아. 다만 이 전략의 성능 효과도 아직 숫자로 증명된 건 아니야.

참고 자료

수치는 발표 시점 기준이라 바뀔 수 있어.