spoonai
TOPAnthropicClaudeLLM

Claude Opus 4.7, 이미지는 3.75MP로 SWE는 87.6%

Anthropic이 Claude Opus 4.7을 정식 출시. SWE-bench Verified 87.6%, 이미지 해상도 상한을 1,568px에서 2,576px로 상향. 가격은 Opus 4.6 그대로. Mythos는 여전히 비공개.

·5분 소요·Anthropic
공유
Claude Opus 4.7 모델 런칭 비주얼 이미지
출처: Unsplash

SWE-bench 87.6% + 3.75MP 이미지

Anthropic이 2026년 4월 16일, Claude Opus 4.7을 정식 GA(General Availability)로 공개했어. Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 네 플랫폼에서 바로 사용 가능해. 가격은 Opus 4.6과 동일 — 입력 토큰 $5/M, 출력 토큰 $25/M. 1M 토큰 컨텍스트는 프리미엄 없이 표준 가격에 포함돼.

그런데 진짜 이슈는 숫자 두 개야.

SWE-bench Verified 87.6%. 이미지 해상도 상한 2,576px (약 3.75MP).

이 두 수치가 Opus 4.7이 어떤 방향을 향하는지 보여줘.

이걸 이해하려면

Opus 4 라인업의 여정

Claude Opus 4는 2025년 5월에 첫 공개됐어. Anthropic이 "에이전트 작업(agent work)"에 초점을 둔 첫 번째 프런티어 모델로, 긴 멀티스텝 코딩 세션을 자율적으로 해낼 수 있게 설계됐지. 그 이후 Opus 4.1(8월), 4.5(11월), 4.6(2026년 1월)까지 거의 분기마다 마이너 업데이트가 이어졌어. 4.7은 그 연장선이야.

각 버전별 SWE-bench Verified 점수를 정리하면:

버전 출시 시점 SWE-bench Verified 주요 변화
Opus 4 2025-05 72.5% 에이전트 탑재, 1M 컨텍스트
Opus 4.1 2025-08 74.5% 도구 호출 신뢰성 개선
Opus 4.5 2025-11 79.4% 장기 실행 에이전트 안정성
Opus 4.6 2026-01 82.0% 비전 기본 지원
Opus 4.7 2026-04 87.6% 고해상도 비전 + 사이버 세이프가드

SWE-bench Verified는 OpenAI가 만든 "실제 GitHub 이슈를 고치는 능력"을 측정하는 벤치마크야. 87.6%라는 건 사람이 실제로 올린 이슈 100개 중 87개를 모델이 정확한 패치로 해결했다는 뜻이야. 2년 전 GPT-4의 초기 SWE-bench 점수가 20%대였다는 걸 생각하면 가파른 상승 곡선이지.

고해상도 비전이 왜 중요해

Opus 4.7부터 최대 입력 이미지 해상도가 long edge(긴 변) 기준 1,568px(약 1.15MP)에서 2,576px(약 3.75MP)로 상향됐어. 거의 3배.

해상도가 왜 중요할까. 예를 들어 PDF 문서를 스크린샷으로 넣었을 때 본문 글자가 저해상도에서는 흐릿해서 모델이 잘못 읽는 경우가 많아. UI 스크린샷의 세부 요소(버튼 라벨, 작은 아이콘)도 해상도가 부족하면 놓쳐. 논문 figure, 차트, 도면, 지도, 의료 영상처럼 디테일이 중요한 이미지 분석에서 이 상한이 결정적 차이를 만들어.

Anthropic 공식 발표도 "이번이 첫 고해상도 이미지 지원 Claude"라고 명시했어. 컴퓨터 사용(computer use) 에이전트 기능과 맞물리면서 Claude가 실제 화면을 정확히 이해하고 조작하는 품질이 한 단계 올라간 거야.

핵심 내용 해부

코딩 능력: 87.6% SWE-bench Verified

이 점수는 업계 최상위권이야. 경쟁 모델들과 비교하면:

모델 SWE-bench Verified
GPT-5.4 82~84% (추정)
Gemini 3.1 Ultra 80% 선
GLM-5.1 (Zhipu) 85.8% (SWE-bench Pro 공개)
Claude Opus 4.7 87.6%

오픈소스 GLM-5.1이 SWE-bench Pro(더 어려운 버전)에서 높은 점수를 낸 건 특이한 케이스지만, 표준 SWE-bench Verified에선 Opus 4.7이 현재 프런티어라고 볼 수 있어.

이 점수가 의미하는 건, AI 코딩 도구가 이제 "수정사항 제안"이 아니라 "실제 패치 생성 + 테스트 통과"까지 자율적으로 해낸다는 거야. Cursor 같은 에디터가 급성장한 배경에는 이런 모델 성능 개선이 있어.

사이버 세이프가드

Opus 4.7의 또 다른 특징은 사이버보안 관련 안전장치가 기본으로 포함된 점이야. Anthropic은 "금지되거나 고위험 사이버보안 용도로 판단되는 요청을 자동으로 감지하고 차단한다"고 명시했어.

이 기능은 특히 최근 몇 달간 이슈였던 "LLM으로 멀웨어 생성" 사례들에 대한 대응이야. The Hacker News가 지난달 보도한 "바이브 코딩 멀웨어 위협(vibe-coding malware)"에 따르면 AI 생성 코드의 60~65%가 보안 취약점을 포함하는 경향이 있다고 돼 있어. 모델 수준에서 악용 시도를 차단하려는 업계의 공통 과제에 Anthropic이 정면으로 응답한 셈이야.

Mythos는 여전히 안 나와

이번 발표에서 가장 궁금한 건 사실 Opus 4.7이 아니야. Anthropic이 수개월째 "Mythos"라는 코드명으로 테스트 중인 차세대 모델이 언제 나오느냐야. Opus 4.7 공지에서도 Anthropic은 "Opus 4.7이 우리 최강 모델은 아니다. 그건 Mythos고, 현재 제한된 사용자 풀에서 테스트 중"이라고 명시했어.

Mythos에 대한 외부 평가는 "Opus 4.6 대비 계단식(step change) 성능 향상"이야. 하지만 Anthropic은 사이버보안 안전성 우려 때문에 일반 공개를 미뤘고, 일부 보도에 따르면 공개 계획 자체가 불확실해.

Claude Mythos Preview는 4월 초 일부 기업 고객에게 제공됐고, 특히 제로데이 취약점 발견 같은 공격적 사이버 능력에서 놀라운 성능을 보였다고 알려졌어. NPR의 4월 보도에 따르면 Anthropic 내부 프로젝트 "Glasswing"에서 Mythos를 활용해 대규모 오픈소스 취약점 탐지를 돌렸고, 상업 도구가 놓친 결함을 대량으로 잡아냈다고 해.

더 넓은 그림: 프런티어 모델 경쟁

Opus 4.7이 출시된 4월 중순은 프런티어 모델 경쟁이 가장 치열한 시점이야.

모델 라이프사이클:

  • Google Gemini 3.1 Ultra — 4월 초 2M 컨텍스트로 공개
  • OpenAI GPT-5 Turbo — 4/7 네이티브 이미지/오디오 생성 추가
  • Meta Llama 4 — 4/5 MoE 아키텍처, Scout 모델은 10M 컨텍스트
  • Google Gemma 4 — 4/2 Apache 2.0 오픈 모델 패밀리
  • Anthropic Claude Opus 4.7 — 4/16 GA
  • Zhipu GLM-5.1 — MIT 라이선스 744B MoE

한 달 안에 프런티어급 모델이 6개 풀렸어. 사용자 관점에서 모델 선택의 기준은 이제 "가장 똑똑한 하나"가 아니라 "이 태스크에 가장 적합한 것"이 됐지.

각 모델의 강점:

  • Claude Opus 4.7 → 코딩, 에이전트, 고해상도 비전
  • GPT-5 Turbo → 멀티모달 생성(이미지, 오디오), 대중 소비자
  • Gemini 3.1 Ultra → 초장문 컨텍스트, 비디오 이해
  • Llama 4 Scout → 10M 컨텍스트 + 오픈 가중치
  • Gemma 4 → 단일 GPU에서 로컬 실행
  • GLM-5.1 → 오픈소스 + SWE-Bench Pro 강점

그래서 뭐가 달라지는데

개발자 관점

Cursor, Claude Code, Aider, Continue 같은 AI 코딩 도구를 쓰고 있다면, 이번 업데이트로 품질이 한 단계 올라갔다는 걸 바로 체감할 수 있어. 특히 테스트 통과율이 중요한 대규모 리팩터링 작업, 복잡한 버그 수정에서 차이가 크게 나타날 거야. 가격은 그대로라 비용 부담은 없어.

고해상도 비전 지원은 "코드에서 UI 구현" 워크플로우에서 큰 도움이 돼. Figma 디자인 고해상도 스크린샷을 Claude에 주면 훨씬 더 정확한 HTML/CSS 생성을 기대할 수 있어.

엔터프라이즈 관점

사이버보안 안전장치가 기본 포함된 점은 엔터프라이즈 도입 시 컴플라이언스 관점에서 플러스야. 금융, 의료 같은 규제 산업에서 AI 코딩 도구 도입을 검토 중이라면 Opus 4.7이 현재 가장 "책임감 있는 선택지" 중 하나로 평가될 가능성이 높아.

경쟁사 관점

Anthropic이 최강 모델(Mythos)을 공개하지 않고 있는데도 Opus 4.7로 이 점수를 찍었다는 건, Mythos가 실제 공개되면 상당한 충격을 줄 수 있다는 암시야. OpenAI, Google 입장에선 GPT-6/Gemini 4 같은 차세대 모델 출시 시점과 성능 목표를 재조정할 수밖에 없어.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지