Qwen 3.5 Medium, Sonnet 4.5를 벤치마크에서 꺾었다
알리바바 Qwen 3.5 Medium 시리즈가 Apache 2.0으로 공개. 35B 모델이 Claude Sonnet 4.5를 MMLU에서 앞서고, 122B는 GPT-5 mini 대비 에이전트 작업에서 30% 우위.

무료 모델이 유료 모델을 이기다
2월 24일, 알리바바의 Qwen 팀이 깜짝 발표를 했어. Qwen 3.5 Medium 시리즈인데, 이게 뭔가 특별했어. 35억 개 파라미터를 가진 Qwen 3.5-35B-A3B 모델이 Anthropic의 Claude Sonnet 4.5를 MMLU 벤치마크에서 이겨버린 거야. 그리고 더 큰 122억 파라미터 모델인 Qwen 3.5-122B-A10B는 OpenAI의 GPT-5 mini를 에이전트 작업에서 30% 앞서갔어. 가장 중요한 건? 이 모든 게 Apache 2.0 오픈소스 라이선스로 공개됐다는 거야.
지난 2년간 AI 업계를 보면서 하나 확실해진 게 있어. 중국 오픈소스 모델들이 미국의 독점 AI 회사들을 따라잡고 있다는 거지. Qwen 3.5 Medium은 그 추세를 더 명백하게 보여주는 증거가 됐어.
벤치마크의 진실과 거짓 사이
벤치마크 수치가 넘쳐나는 요즘, 이런 주장들을 어떻게 봐야 할까? 먼저 숫자들을 정리해보자.
| 모델 | MMLU | MMMU-Pro | BFCL-V4 (도구 사용) |
|---|---|---|---|
| Qwen 3.5-35B-A3B | Claude Sonnet 4.5 초과 | Claude Sonnet 4.5 초과 | – |
| Qwen 3.5-122B-A10B | – | – | 72.2 |
| GPT-5 mini | – | – | 55.5 |
Qwen 3.5-35B-A3B가 Sonnet 4.5를 MMLU와 MMMU-Pro에서 이겨낸 건 중요해. MMLU는 대규모 언어 모델의 일반 지식을 테스트하는 가장 기본적인 벤치마크거든. MMMU-Pro는 시각적 추론 능력을 본다. 둘 다 이겼다는 건, 이 35B 모델이 단순한 토이 프로젝트가 아니라는 뜻이야.
그런데 여기서 조심해야 할 부분이 있어. 벤치마크는 게임이기도 해. 모델들을 특정 과제에 최적화하면 그 벤치마크에서는 잘할 수 있지만, 실제 세상에선 형편할 수 있다는 거지. 실제로 사람들이 Qwen 3.5를 실제로 써본 결과를 들어보면, 코딩 작업 같은 실무 업무에선 벤치마크만큼 뛰어나지 않다는 피드백이 많아.
벤치마크는 AI 모델의 능력을 빠르게 비교하는 도구지만, 실제 사용자 경험과는 다를 수 있다는 걸 항상 기억해야 해.
122B 모델이 특별한 이유
122B 모델의 도구 사용 점수인 72.2점은 GPT-5 mini의 55.5점 대비 30% 우위를 의미해. 이게 뭘 의미하냐면, Qwen 3.5-122B-A10B가 복잡한 작업을 수행하기 위해 도구나 API를 더 잘 이해하고 활용할 수 있다는 거야. 이게 중요한 이유? 미래의 AI는 단순히 텍스트를 생성하는 모델이 아니라, 사용자의 지시를 받아서 실제 액션을 취할 수 있어야 하니까.
MoE(Mixture of Experts) 아키텍처가 이런 성능을 가능하게 했어. MoE는 전체 파라미터 중 일부만 활성화되는 구조야. 122B 모델 같은 경우, 32개 전문가로 구성돼 있는데, 각 입력마다 맞는 전문가들만 활성화돼. 이렇게 하면 계산량은 줄이면서도 성능은 유지할 수 있어. 똑똑한 설계지.
Qwen 3.5 시리즈 전체를 보면, 모든 Medium 모델이 GPT-5 mini를 에이전트 작업에서 20~30% 앞서가고 있어. 이건 우연이 아니야. 알리바바가 도구 사용 능력에 집중해서 모델을 훈련했다는 증거지.
Medium 시리즈 뒤의 더 큰 그림
Qwen 3.5 Medium이 나오기 전에 뭐가 있었냐면, Qwen 3.5와 Qwen 3.5-Plus가 있었어. 이 둘은 2월 16일에 나왔는데, 여기에 Plus 라이센스 제약이 있었어. 하지만 Medium 시리즈는 달라. Apache 2.0으로 완전히 오픈됐어.
알리바바의 Qwen3 패밀리를 보면, 0.6억 파라미터짜리 소형 모델부터 235억 파라미터 대형 모델까지 다 오픈소스로 공개했어. 이게 전략인데, 개발자들과 연구자들이 쉽게 접근할 수 있는 모델 생태계를 만드는 거야. 가장 작은 모델은 모바일 기기에도 돌릴 수 있고, 큰 모델들은 데이터센터에서 강력한 추론 성능을 내줄 수 있어.
Medium 시리즈는 이 스펙트럼의 중간자 역할을 해. 너무 작아서 능력이 부족한 것도 아니고, 너무 커서 배포가 어려운 것도 아니야. 35B 모델은 고급 GPU 한 두 개에서도 돌릴 수 있는 수준이고, 122B는 엔터프라이즈 인프라라면 충분히 배포 가능해.
그래서 뭐가 달라지는데?
이 발표가 중요한 이유를 정리하면:
첫째, 오픈소스가 더는 구려진 않다는 거야. 예전엔 "오픈소스는 싸니까 쓰지만 성능은 기대하지 말아야지"라는 분위기가 있었어. 근데 지금은 달라. 오픈소스 모델이 유료 모델을 이기고 있어.
둘째, 중국 회사들이 AI 경쟁에서 앞서가고 있다는 걸 무시할 수 없게 됐어. 알리바바, 바이두, 안트러픽의 중국 경쟁사들... 이들의 모델들이 점점 더 좋아지고 있어. 미국이 AI 주도권을 완전히 잃진 않겠지만, 지금처럼 압도적인 우위는 없을 것 같아.
셋째, 실제로 구현할 수 있는 모델이 많아진다는 거야. 기업이나 개발자 입장에서 보면, Sonnet 4.5나 GPT-5 mini에 대한 API 호출 비용을 계속 내지 않아도 돼. 오픈소스 모델을 다운받아서 자신의 인프라에서 돌릴 수 있으면, 장기적으로 비용도 절감되고 데이터 프라이버시도 지킬 수 있어.
현실적인 한계들
하지만 여기서 성급하게 환호할 필요는 없어. Qwen 3.5 시리즈도 문제가 있거든.
가장 큰 건 코딩 능력이야. 벤치마크에선 좋은 점수를 받는데, 실제로 복잡한 코딩 작업을 시켜보면 답답한 부분들이 있다고 해. 이건 훈련 데이터나 파인튜닝 전략의 문제일 수도 있고, 아니면 벤치마크가 코딩 능력을 제대로 측정 못 하는 건지도 몰라.
그리고 오픈소스 모델이 좋긴 해도, 실제로 운영하려면 전문 인력이 필요해. API를 쓰는 것처럼 버튼 클릭하고 끝나는 게 아니니까. 모델을 배포하고, 모니터링하고, 문제가 생기면 디버깅하고... 이런 걸 할 인력이 있어야 해.
또 하나는 멀티모달 능력이야. Qwen 3.5는 텍스트와 이미지를 모두 처리할 수 있는데, 실제 성능이 얼마나 좋은지는 더 봐야 할 것 같아. 벤치마크 점수가 좋다고 해서 실제 화면 이해나 차트 읽기 같은 일에서도 그런지는 별개야.
접근 가능한 곳들
Qwen 3.5 Medium은 다음 플랫폼들에서 사용 가능해:
- Hugging Face: 커뮤니티 모델 허브에서 다운로드할 수 있어
- GitHub: Qwen3 공식 리포지토리에서 코드와 가중치 제공
- ModelScope: 중국의 모델 공유 플랫폼
- chat.qwen.ai: 웹 기반 인터페이스에서 직접 써볼 수 있어
개발자들이 쉽게 접근할 수 있도록 여러 경로를 뚫어둔 거야. 알리바바가 얼마나 진지한지 보여주는 부분이지.
더 넓은 맥락
Qwen 3.5 Medium의 등장은 더 큰 추세의 일부야. 지난 6개월간 오픈소스 모델들이 얼마나 빨리 발전했는지 보면, AI의 민주화가 정말 일어나고 있는 거 같아.
한때는 OpenAI, Anthropic, Google 같은 거대 회사들만 강력한 모델을 만들 수 있을 거라고 생각했어. 근데 지금은? Meta는 Llama를 오픈소스로 내놨고, 알리바바는 Qwen을, Mistral 같은 스타트업도 경쟁력 있는 모델을 오픈소스로 공개했어. 이런 흐름이 계속되면, AI의 미래는 더 분산되고 민주적인 방향으로 갈 가능성이 높아.
물론 여기에 대응하는 회사들도 있어. OpenAI는 o1이라는 추론 모델을 강조하고, Anthropic은 Constitutional AI로 차별화를 하고 있지. 하지만 오픈소스 모델들의 속도를 보면, 그 간격이 점점 좁혀지는 건 확실해.
결론: 전쟁이 바뀌고 있어
Qwen 3.5 Medium의 등장은 단순한 새로운 모델 하나가 아니야. 이건 AI 업계의 권력 구도가 바뀌고 있다는 신호야.
벤치마크 점수만 보면, 35B 모델이 Claude Sonnet 4.5를 이겨냈어. 122B는 GPT-5 mini를 30% 앞서갔어. 그리고 이 모든 게 무료로, Apache 2.0 라이선스 아래 공개돼 있어.
이게 유지될지는 아직 모르겠어. 실제 성능을 더 봐야 하고, 코딩이나 다른 실무 작업에서도 테스트해봐야 해. 하지만 분명한 건, AI 모델의 최전선이 어느 한 회사나 국가의 전유물이 아니라는 거야.
만약 넌 이 모델들을 쓸 가능성이 있다면, 지금이 좋은 시점이야. Hugging Face에 가서 받아보고, 직접 돌려봐. 벤치마크 수치가 어떻게 현실로 나타나는지 확인해 봐. 그게 진짜 가치야.
오픈소스의 힘은 여기서 나와. 누구든 가져다 쓸 수 있고, 누구든 개선할 수 있고, 누구든 자신의 용도에 맞게 수정할 수 있다는 거지. Qwen 3.5 Medium이 보여주는 건 바로 그런 미래야.
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.



