spoonai
TOPAlibabaQwen에이전트

알리바바가 Qwen-AgentWorld를 풀었어 — 에이전트가 아니라 '세계 자체'를 학습한 모델

6월 24일 공개된 Qwen-AgentWorld는 7개 환경(MCP·Search·Terminal·SWE·Web·OS·Android)을 한 모델로 시뮬레이션해. 행동 선택이 아니라 '환경이 어떻게 반응하는지'를 배워서, AgentWorldBench에서 GPT-5.4·Opus 4.8·Gemini 3.1 Pro를 앞섰어. Apache 2.0 오픈소스.

·7분 소요
공유
Alibaba Qwen-AgentWorld — 언어 세계 모델
출처: Alibaba Cloud

에이전트를 잘 만들려면, 에이전트가 아니라 '세상'을 가르쳐야 했어

자, 핵심부터 말할게. 알리바바 Qwen팀이 6월 24일 Qwen-AgentWorld를 공개했어. 이름은 에이전트 같은데, 정작 이 모델은 '에이전트'로 학습되지 않았어. 대신 **'언어 세계 모델(language world model)'**이라는 새 발상을 들고 나왔지. 무슨 말이냐면 — 보통 에이전트 모델은 "이 상황에서 어떤 행동을 할까"를 배우는데, Qwen-AgentWorld는 "어떤 행동을 하면 환경이 어떻게 반응할까"를 배워. 행동 선택이 아니라 환경 예측이 목표인 거야.

그리고 이 모델은 7개 환경을 한 모델로 시뮬레이션해 — MCP, Search(검색), Terminal(터미널), SWE(소프트웨어 엔지니어링), Web(웹), OS(운영체제), Android(안드로이드). 각각 따로 학습한 게 아니라, '환경이 행동에 어떻게 반응하는지'라는 하나의 학습 목표로 일곱 영역을 동시에 익혔어. 사람으로 치면 "각 게임의 공략법"을 외운 게 아니라 "물리 법칙 자체"를 이해한 거에 가까워.

결과가 놀라워. AgentWorldBench라는 자체 벤치마크에서 397B-A17B 모델이 58.71점을 받아 GPT-5.4(58.25), Claude Opus 4.8(56.59), Gemini 3.1 Pro(54.57)를 앞섰어. 환경 시뮬레이션 능력 기준이야. 게다가 작은 35B-A3B 모델도 56.39점으로 Claude Opus 4.8을 이겼어. 그리고 이 모든 게 Apache 2.0 라이선스로 오픈소스 공개됐어. 누구나 다운받아 쓸 수 있다는 얘기야.

오늘 풀 이야기는 이거야. '세계 모델'이 정확히 뭐가 다른지, 왜 이게 에이전트 성능을 끌어올리는지, 그리고 개발자·연구자·업계에 뭐가 달라지는지. 등장인물은 셋이야 — 모델을 만든 알리바바 Qwen팀, 비교당해 진 미국 프런티어 모델들, 그리고 이 오픈소스를 받아 쓸 전 세계 개발자.

등장인물 — Qwen, 비교당한 프런티어 모델, 그리고 오픈소스 생태계

먼저 알리바바 Qwen팀. 중국의 대표 LLM 연구 조직이고, DeepSeek·Zhipu(GLM)와 함께 '중국 오픈웨이트 3강'으로 묶여. Qwen은 그동안 꾸준히 강력한 오픈 모델을 풀어 글로벌 개발자 사이에서 신뢰를 쌓아왔어. 이번 AgentWorld는 단순히 '또 하나의 좋은 모델'이 아니라, '에이전트를 학습하는 방법론' 자체를 바꾼 연구라는 점에서 무게가 달라.

다음은 비교당한 미국 프런티어 모델들 — GPT-5.4, Claude Opus 4.8, Gemini 3.1 Pro. 이들은 각 회사의 최상위급 모델이야. 그런데 '환경 시뮬레이션'이라는 특정 과제에서, 오픈소스로 풀린 Qwen-AgentWorld에 밀렸어. 다만 오해는 말자 — 이건 AgentWorldBench라는 특정 벤치마크, 그것도 '환경이 어떻게 반응할지 예측하는' 좁은 능력 기준이야. 코딩·추론 전반의 우열을 말하는 게 결코 아니야.

세 번째는 전 세계 개발자. Apache 2.0 공개의 의미가 여기서 커. 누구나 가중치를 받아 자기 환경에 올리고, 파인튜닝하고, 상업적으로 쓸 수 있어. 에이전트를 만들려는 개발자한테 '환경을 잘 이해하는 모델'은 강력한 출발점이야. 게다가 35B 같은 작은 모델도 성능이 좋으니, 큰 GPU 없이도 돌릴 수 있어.

이 셋을 한 문장으로 묶으면 이래. 알리바바가 에이전트 학습의 발상을 뒤집은 모델을 오픈소스로 풀었고, 그게 미국 프런티어 모델을 특정 과제에서 앞서면서 개발자한테 공짜 출발점을 줬다. 이게 뼈대야.

핵심 내용 — '세계 모델'이 왜 다른가

'세계 모델'을 쉽게 풀어볼게. 보통 에이전트는 '시행착오'로 배워. 행동을 해보고, 결과를 보고, 좋으면 강화하고 나쁘면 피해. 문제는 이게 비싸다는 거야. 실제 환경(진짜 터미널, 진짜 웹)에서 수백만 번 시행착오를 하려면 시간·비용이 어마어마해. 그런데 만약 '환경이 어떻게 반응할지'를 정확히 예측하는 모델이 있다면? 머릿속에서 시뮬레이션을 돌려보고 행동을 고를 수 있어. 사람이 체스를 둘 때 "이렇게 두면 상대가 저렇게 나올 거야"를 머릿속으로 미리 굴리는 것과 같아.

모델 AgentWorldBench 라이선스 특징
Qwen-AgentWorld 397B-A17B 58.71 Apache 2.0 환경 시뮬레이션 1위
GPT-5.4 58.25 비공개 프런티어
Qwen-AgentWorld 35B-A3B 56.39 Apache 2.0 소형, Opus 4.8 추월
Claude Opus 4.8 56.59 비공개 프런티어
Gemini 3.1 Pro 54.57 비공개 프런티어

표에서 두 가지가 눈에 띄어. 첫째, 오픈소스 모델이 비공개 프런티어를 앞섰다는 구도야. 며칠 전 GLM 5.2가 보안 벤치에서 Claude를 이긴 것과 같은 흐름인데, 이번엔 '에이전트 환경 이해'라는 또 다른 영역에서 반복됐어. 둘째, 작은 35B 모델조차 Opus 4.8을 이겼다는 거야. 이게 진짜 무서운 부분이야 — 거대 모델이 아니어도, 학습 방법을 바꾸면 특정 과제에서 프런티어를 따라잡을 수 있다는 증명이거든.

학습 방식도 특이해. Qwen-AgentWorld는 처음부터 끝까지(CPT→SFT→RL) '환경 모델링'을 학습 목표로 삼았어. 범용 LLM을 만든 뒤 에이전트 능력을 덧붙인 게 아니라, 1천만 개 이상의 실제 환경 상호작용 궤적으로 '환경 자체'를 학습한 거야. 그래서 VentureBeat 기사 제목이 "에이전트로 학습한 적 없는데 에이전트 성능을 올렸다"였어.

각자의 이득 — 누가 웃나

알리바바 Qwen팀이 가장 크게 웃어. 단순히 벤치마크 1등을 한 게 아니라, '에이전트 학습의 새 패러다임'을 제시하며 연구 리더십을 보여줬거든. 게다가 오픈소스로 풀어 전 세계 개발자가 이걸 기반으로 뭔가를 만들면, 그 생태계의 중심에 Qwen이 서게 돼. 신뢰와 영향력을 동시에 키우는 영리한 수야.

개발자·연구자도 큰 수혜야. 에이전트를 만들 때 '환경을 이해하는 모델'을 공짜로 출발점으로 쓸 수 있어. 특히 35B 같은 작은 모델로도 성능이 나오니, 개인 연구자나 작은 팀도 큰 인프라 없이 실험할 수 있어. AgentWorldBench라는 평가 도구까지 함께 공개돼서, 연구 재현성도 좋아져.

곤란해진 쪽은 비공개 프런티어 진영이야. "가장 비싼 우리 모델이 공짜 오픈 모델한테 특정 과제에서 졌다"는 서사가 또 반복됐거든. 물론 좁은 벤치마크지만, 이런 사례가 쌓이면 "왜 비싼 비공개 모델을 써야 하나"라는 질문이 점점 커져. 프런티어 랩들은 '단순 성능'이 아닌 다른 가치로 차별화해야 하는 압박을 받아.

과거 유사 사례 — 성공과 실패

비슷한 장면을 우리는 이미 봤어. DeepStack·MuZero 같은 강화학습 세계 모델이 게임에서 보여준 게 그거야. 환경을 정확히 모델링하면, 실제 시행착오 없이 '상상 속에서' 계획을 세울 수 있어. 딥마인드가 게임에서 증명한 이 아이디어를, Qwen이 언어 기반 디지털 환경(터미널·웹·OS)으로 옮겨온 셈이야. '세계 모델'은 검증된 강력한 발상이지.

성공의 핵심은 '시뮬레이션의 정확도'야. 환경 예측이 정확할수록 머릿속 계획이 현실과 맞아떨어져. 반대로 실패의 위험도 분명해 — 시뮬레이션이 틀리면, 모델은 '현실엔 없는 환상'을 기반으로 계획을 세워. 이걸 '월드 모델의 환각'이라 부르는데, 실제 환경과의 괴리가 크면 오히려 독이 돼. Qwen이 1천만 개 실제 궤적으로 학습한 건 이 괴리를 줄이려는 거야.

오픈소스 전략의 교훈도 있어. DeepSeek·GLM·Qwen이 보여줬듯, 중국 랩의 '공개로 신뢰 쌓기' 전략은 효과적이었어. 다만 오픈소스는 양날의 검이야 — 경쟁사도 그 연구를 그대로 흡수해 따라올 수 있거든. 그래서 Qwen은 '계속 더 빨리, 더 앞서' 공개해야 리더십을 유지할 수 있어. 한 번의 공개로 끝나는 게임이 아니야.

짚어둘 게 하나 더 있어 — 벤치마크 자체가 전략의 일부야. AgentWorldBench를 모델과 함께 공개함으로써 Qwen은 단순히 '이겼다'고 주장하는 게 아니라, '그 승리를 재는 잣대'를 직접 정의해버린 거야. 벤치마크를 정하는 쪽이 그 분야에서 '잘함'의 의미를 규정하고, 역사를 보면 그 틀은 그걸 1등 한 어떤 단일 모델보다 오래 살아남아. ImageNet은 그걸 우승한 어떤 모델보다 중요했고, 시험 자체가 경기장이 됐지. AgentWorldBench가 '환경 이해'를 재는 표준이 되면, Qwen은 분야 전체가 따라 행진해야 할 깃발을 꽂은 셈이야. 다음 분기면 깨질 리더보드 점수보다 훨씬 미묘하고 오래가는 형태의 리더십이지.

경쟁자 카운터 플레이 — 다음 수는

**미국 프런티어 랩(OpenAI·Anthropic·Google)**의 카운터는 '세계 모델 발상을 흡수하되 자기 강점과 결합'하는 거야. 오픈소스로 풀린 만큼 방법론은 누구나 따라 할 수 있어. 거기에 자기네 거대 모델·안전장치·제품 통합을 얹으면, '오픈 모델은 부품, 우리는 완성품'이라는 프레임으로 응수할 수 있어.

**다른 중국 랩(DeepSeek·Zhipu)**은 이 흐름에 올라타 '오픈 + 새 방법론'으로 더 밀어붙일 거야. GLM 5.2의 보안 벤치 승리, Qwen-AgentWorld의 에이전트 승리가 며칠 간격으로 나오면서, '중국 오픈웨이트 진영이 특정 영역에서 프런티어를 추월한다'는 서사가 굳어지고 있어. 이들끼리도 누가 더 임팩트 있는 오픈 모델을 내느냐로 경쟁해.

에이전트 프레임워크·툴 회사들은 이 모델을 자기 스택에 통합할 동기가 생겨. '환경을 잘 이해하는 오픈 모델'은 에이전트 제품의 기반으로 매력적이거든. 다만 라이선스(Apache 2.0)는 상업적으로 자유로워서, 통합 자체보다 '어떻게 차별화할까'가 이들의 숙제가 돼.

그래서 뭐가 달라지는데

에이전트 개발자라면 — Qwen-AgentWorld를 출발점으로 검토해볼 만해. 특히 환경(터미널·웹·OS) 상호작용이 많은 에이전트라면, '환경을 이해하는 모델'이 시행착오 비용을 줄여줄 수 있어. 35B 모델로도 성능이 나오니 인프라 부담도 작아. 다만 너의 실제 도메인에서 성능을 직접 검증하는 건 필수야.

연구자라면 — '에이전트를 행동이 아닌 환경 예측으로 학습한다'는 발상 자체가 연구 주제로 뜨거워. AgentWorldBench와 모델 가중치가 공개돼서 재현·확장 실험이 쉬워졌어. 세계 모델 + 언어 모델의 결합은 앞으로 한동안 핫한 분야가 될 거야.

업계 관찰자라면 — 'AI 경쟁의 무게중심이 모델 크기에서 학습 방법으로 옮겨간다'는 신호로 읽어. 35B 모델이 거대 프런티어를 특정 과제에서 이긴 건, "무조건 크게"가 아니라 "영리하게"가 통한다는 증거야. 이건 인프라가 부족한 작은 팀·국가에도 기회를 여는 흐름이야.

🥄 남은 궁금증 세 가지

— 그럼 Qwen이 GPT-5.4보다 좋은 모델이야? 아니야, 그렇게 읽으면 안 돼. 이건 AgentWorldBench라는 특정 벤치마크, 그것도 '환경이 어떻게 반응할지 예측하는' 좁은 능력 기준이야. 코딩·추론·일반 대화 전반의 우열을 말하는 게 전혀 아니야. 한 좁은 트랙의 결과로 보는 게 맞아.

— '세계 모델'이 그렇게 대단한 거야? 발상 자체는 강력해. 환경을 정확히 예측하면 실제 시행착오 없이 계획을 세울 수 있거든. 다만 시뮬레이션이 틀리면 '환상 기반 계획'이라는 위험도 있어. 얼마나 현실과 잘 맞느냐가 관건이고, 그건 도메인마다 직접 검증해봐야 해.

— 오픈소스인데 알리바바한테 뭐가 이득이야? 생태계의 중심에 서는 게 이득이야. 전 세계 개발자가 Qwen을 기반으로 뭔가를 만들면, 신뢰와 영향력이 알리바바로 모여. 클라우드 사업(알리바바 클라우드)과도 연결되고. '공짜로 풀어 표준을 차지한다'는 게 오픈소스 전략의 핵심이야.

참고 자료

수치는 발표 시점 기준이라 바뀔 수 있어.

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지