GPT-5.5 출시 — 에이전틱 코딩과 컴퓨터 사용 능력이 한 단계 점프했다
OpenAI가 GPT-5.5를 정식 출시했다. 핵심 업그레이드는 다중 단계 에이전틱 코딩과 컴퓨터 사용(computer use) 능력. SWE-Bench Verified 75% 돌파와 Browser·OS 자동화 벤치 신기록이 포인트.

75%
GPT-5가 작년 여름 출시됐을 때 가장 큰 비판은 "이름값을 못 한다"였어. SWE-Bench Verified에서 65% 정도. Claude Sonnet 4.5보다 살짝 낮았지. 9개월이 지나 OpenAI가 GPT-5.5를 내놨고, 같은 벤치마크에서 75%를 넘어섰어. 단순 점수 상승이 아니라 에이전틱 코딩 패러다임을 바꿀 가능성이 있는 점프야.
핵심 업그레이드 두 가지. 첫째, 다중 단계 에이전틱 코딩. PR 단위로 task를 받아서 코드 작성, 테스트 실행, 실패 시 디버그, 재실행, 통과까지 자율적으로 끌고 가. 둘째, 컴퓨터 사용(computer use). 브라우저와 OS를 직접 조작해 사람이 GUI에서 하는 일을 따라 해. Anthropic의 Computer Use(2024년 10월 출시) 아이디어가 OpenAI 진영에서 한 단계 더 다듬어진 형태야.
Sam Altman은 출시 블로그에서 "5.5는 task를 설명하는 게 아니라 끝내는 첫 모델"이라고 썼어. 마케팅 카피처럼 들리지만, 실제 벤치마크와 데모 영상이 그 발언을 어느 정도 뒷받침해.
각 주체 — OpenAI, 경쟁자, 그리고 사용자
OpenAI 내부에서 5.5는 5.0의 명예 회복 프로젝트였어. 5.0 출시 당시 Sam Altman은 "AGI 향해 가는 단계"라고 표현했는데, 실제 사용자 반응은 "왜 이름이 5인가"였어. 그 사이에 Anthropic이 Claude Sonnet 4.5와 Computer Use로 코딩·자동화 영역을 가져갔고, Google Gemini 2.5와 3.0도 멀티모달에서 따라붙었지. 5.5는 그 빈 자리를 다시 채우는 모델이야.
경쟁자 Anthropic 입장에서 5.5의 출시는 코딩 영역 1위 자리가 흔들리는 신호야. Claude Sonnet 4.5의 SWE-Bench Verified는 약 73%(2025년 말 기준). 5.5가 75%를 찍으면 처음으로 OpenAI가 코딩에서 Anthropic을 앞서. 다만 단일 벤치 우위는 의미가 제한돼. 실제 개발자 만족도는 다른 변수에 더 많이 의존하니까.
Google Gemini 진영은 멀티모달에 집중하고 있어서 5.5의 코딩 점프와는 직접 충돌이 적어. 다만 동시에 발표된 Gemini 3.1 Ultra(같은 날) 200만 토큰 컨텍스트는 다른 차원의 경쟁이야 — 큰 코드베이스를 한 번에 다루는 영역에서 Gemini가 우위를 가질 수 있어.
사용자 입장에서 가장 큰 변화는 에이전트형 IDE 워크플로가 본격화된다는 거야. Cursor, Codex, Claude Code 같은 도구가 작년부터 PR 단위 task를 받아 자동 처리하는 방향으로 갔는데, 5.5는 그 흐름의 모델 측 보강이야. 같은 도구로 같은 task를 줬을 때, 성공률이 5%p 이상 올라간다는 게 초기 사용자 보고야.
핵심 내용 — 벤치마크 비교
GPT-5.5 모델 카드(OpenAI 공식)와 외부 평가를 종합하면 이래.
| 벤치마크 | GPT-5.5 | GPT-5.0 (직전) | Claude Sonnet 4.5 (경쟁) | Gemini 2.5 Pro (경쟁) |
|---|---|---|---|---|
| SWE-Bench Verified | 75.2% | 64.5% | 72.8% | 65.0% |
| MMLU-Pro | 87.5% | 84.0% | 86.2% | 85.5% |
| GPQA Diamond | 81.0% | 76.5% | 79.0% | 78.0% |
| OSWorld (컴퓨터 사용) | 56.0% | N/A | 42.5% | 38.0% |
| WebArena (브라우저) | 68.2% | 58.0% | 64.5% | 60.5% |
| AIME 2025 (수학) | 92.5% | 88.0% | 90.5% | 89.0% |
가장 큰 점프는 OSWorld(컴퓨터 사용 벤치)야. GPT-5.0은 이 벤치를 거의 풀지 못했고, 5.5는 56%를 찍었어. Anthropic Claude Sonnet 4.5의 42.5% 대비 약 13.5%p 우위야. WebArena(브라우저 자동화)에서도 5.5가 68.2%로 1위. 이 두 벤치는 "에이전트가 GUI 환경에서 사람을 대체할 수 있느냐"를 측정하는데, 6개월 전엔 누구도 50%를 넘지 못했어.
가격은 GPT-5.0과 동일하게 유지돼 — 입력 $2.50/M토큰, 출력 $10/M토큰. 컨텍스트 길이는 256K로 5.0의 200K에서 늘었어. 다만 컴퓨터 사용 모드는 별도 요금(액션당 과금) 구조로 분리됐어.
각자의 이득
OpenAI에게 — Anthropic에 빼앗기던 코딩 시장을 되찾을 발판이야. Cursor 같은 IDE가 백엔드 모델을 뭐로 쓸지 정하는 데 5.5의 점프가 영향을 줘. 또한 컴퓨터 사용에서 Anthropic을 앞서면서, 에이전트형 SaaS의 백엔드 표준 자리를 노릴 수 있어.
개발자에게 — 같은 task를 시키더라도 디버그 사이클이 줄어. 초기 사용자 보고에 따르면 "테스트 실패 → 자동 디버그 → 재실행"의 평균 사이클이 5.0 대비 약 30% 짧아져. 시간 절약 = 비용 절약이야.
SaaS 회사에게 — 컴퓨터 사용 능력으로 인터넷에 흩어져 있는 SaaS를 하나의 에이전트가 묶을 수 있어. RPA(로봇 프로세스 자동화) 시장이 LLM 에이전트로 흡수되는 속도가 빨라져. UiPath, Automation Anywhere 같은 전통 RPA 회사들에게는 압박이야.
OpenAI 직원에게 — 5.0 후폭풍으로 흔들리던 사기가 회복돼. 작년 12월 IPO 루머가 한 차례 돌았는데, 5.5가 시장 반응 좋게 받으면 IPO 평가가 더 올라갈 수 있어.
과거 유사 사례 — 모델 세대 간 점프
LLM 역사에서 비슷한 세대 점프는 여러 번 있었어. GPT-3 → GPT-3.5 (2022). 0.5 단위 업그레이드인데 ChatGPT를 가능케 한 RLHF가 핵심이었어. 단순 파라미터 증가가 아니라 학습 방법론 변화였지. 5.0 → 5.5의 점프도 비슷한 결로 보여 — 새 학습 데이터(에이전트 trajectory 학습), 새 보상 함수(다중 단계 task 완료율), 새 평가 체계가 동시에 들어갔다는 게 OpenAI의 설명이야.
Claude 3 → Claude 3.5 (2024). 0.5 점프인데 Sonnet 3.5는 코딩에서 Claude 3 Opus를 앞섰어. 작은 모델이 큰 모델을 이긴 첫 사례. 5.0 → 5.5는 같은 사이즈 추정이지만, 학습 방식 차이로 성능이 점프한 케이스야.
Llama 2 → Llama 3 (2024). 메이저 점프인데, 학습 데이터 증가(2T → 15T 토큰)가 핵심이었어. 5.5는 데이터 증가보다는 합성 데이터(특히 코딩·에이전트 trajectory)와 RLHF의 변형(RLAIF, RLAIF + Process Reward) 비중이 큰 것으로 보여.
교훈은: 모델 세대 점프는 단순 파라미터 증가만으로는 안 와. 학습 방법론과 평가 체계의 동시 변화가 같이 일어나야 의미 있는 점프가 생겨.
경쟁자 카운터 플레이
Anthropic. Claude Sonnet 5.0 출시가 6월 예상돼. 코딩 영역 우위 회복이 1순위 목표일 거야. 또한 Computer Use를 v3로 업그레이드해서 OSWorld 점수를 따라잡아야 해. Dario Amodei가 작년부터 "에이전트는 우리의 핵심 영역"이라고 강조해 왔으니, 카운터 발표는 빠를 가능성이 높아.
Google. Gemini 3.1 Ultra(같은 날 발표)는 200만 토큰 컨텍스트라는 다른 차원의 무기야. 큰 코드베이스 전체를 한 컨텍스트에 넣고 작업하는 시나리오에서 Gemini가 우위를 가져. OpenAI는 5.5에서도 256K로 늘었지만 200만에는 못 미쳐.
xAI / DeepSeek / Qwen. 가격 우위로 시장 하단을 흔들고 있어. GPT-5.5의 가격이 5.0과 동일하다는 점은 OpenAI가 아직 가격 인하 압박을 본격적으로 받지 않는다는 신호야. 다만 6-12개월 안에 가격 인하 사이클이 올 가능성이 있어.
Cursor / Codex / Claude Code (IDE 측). 모델이 좋아지면 IDE의 차별화는 모델 위 레이어(컨텍스트 관리, MCP, 멀티에이전트 오케스트레이션)에서 일어나. 5.5 출시는 IDE 시장에 새 경쟁 사이클을 트리거해.
그래서 뭐가 달라지는데
개발자에게 — Cursor나 Claude Code 같은 도구에서 모델을 5.5로 바꾸는 것만으로 PR 처리 시간이 줄어들 가능성이 높아. 다만 비용이 더 들지는 않아(가격 동일). 우선 작은 task로 비교해보고, 만족하면 default 모델 변경.
SaaS 회사에게 — 컴퓨터 사용 기능으로 우리 제품을 자동화하는 사용자가 늘어. 이게 좋은 일인지 나쁜 일인지는 비즈니스 모델에 따라 달라. 사용자당 과금 제품엔 위협이 될 수 있어. 반대로 API 사용량 과금엔 호재야.
투자자에게 — OpenAI의 다음 펀딩 라운드 평가에 가장 큰 변수야. 시장이 5.5를 어떻게 받느냐가 평가의 5-10% 변동 요인이야. 또한 컴퓨터 사용 능력이 RPA 시장을 흡수하는 속도가 UiPath 같은 종목의 EPS 가이던스에 영향을 줘.
일반 사용자 — ChatGPT가 작업을 "끝내는" 비율이 높아질 거야. 작년까지는 ChatGPT가 단계를 설명하면 사용자가 따라하는 방식이었는데, 5.5에서는 ChatGPT가 직접 처리하는 시나리오가 늘어. "이 PDF에서 데이터 추출해서 스프레드시트 만들어줘" 같은 task가 한 번에 끝나는 경험이 늘어.
스테이크
- Wins: OpenAI (코딩 영역 1위 회복), 에이전트 SaaS 회사 (백엔드 능력 향상), 개발자 (디버그 사이클 단축)
- Loses: Anthropic (코딩 1위 자리 흔들림), 전통 RPA 회사 (UiPath 등 — 시장 잠식 가속)
- Watching: Cursor·Claude Code IDE — default 모델 변경 추이, Gemini 3.1 Ultra의 큰 컨텍스트 시장 — 코드베이스 단위 작업
반대 의견 — 회의론자
Simon Willison(독립 LLM 분석가)은 5.5 출시 직후 트위터에서 "벤치 점프는 인상적이지만, 실제 SWE-Bench Verified는 cherry-picked 환경"이라고 짚었어. 실제 PR 환경에서는 코드베이스 사이즈, CI 환경, 의존성 충돌 같은 변수가 들어가서 75% 성공률은 그대로 재현되지 않을 거란 시각이야. 1-2주 실제 사용 데이터가 모이면 "재현되는 점프인지"가 드러나.
Andrej Karpathy(전 OpenAI/Tesla, 현 독립)는 "에이전트 능력 점프는 일관되지 않다"고 언급한 적 있어. 어떤 task에서는 강하고 어떤 task에서는 약해서, 평균 점수만 보면 과대평가될 수 있어. 사용자가 자기 워크로드에 적용했을 때 실제 효과가 50%인지 5%인지를 직접 측정해 봐야 해.
내부 안전성 논란도 있어. 컴퓨터 사용 모드에서 모델이 의도하지 않은 동작을 할 가능성(예: 잘못된 파일 삭제, 외부 API 호출)이 있어서, OpenAI는 sandbox와 confirmation 단계를 의무화했어. 다만 sandbox 우회 시도가 보안 연구자들 사이에서 이미 진행 중이야. 1-2달 안에 첫 jailbreak 사례가 나올 가능성이 있어.
내일 아침에 할 것
개발자: Cursor나 Claude Code(또는 회사가 쓰는 AI IDE)에서 5.5로 모델 변경 후 작은 task 5개 비교 측정. 디버그 사이클 시간을 기록해서 ROI를 직접 확인. 창업자/PM: 우리 제품의 사용자 워크플로 중 LLM이 "끝낼 수 있는" 부분을 찾아. 컴퓨터 사용 능력으로 자동화 가능한 단계가 있는지 매핑. 투자자: UiPath, Automation Anywhere 같은 RPA 종목의 가이던스를 다음 분기 콜에서 주목. OpenAI의 차기 펀딩 라운드 가격이 5.5 시장 반응에 따라 어떻게 움직이는지 관찰. 일반 사용자: ChatGPT Plus/Pro 사용자라면 5.5 전환 후 이전 5.0과 비교해서 "끝까지 해주는" 빈도가 늘었는지 1주일 체감 기록.
참고 자료
- LLM Stats — GPT-5.5 update: https://llm-stats.com/llm-updates
- OpenAI 블로그 (모델 카드): https://openai.com/blog
- Simon Willison — GPT-5.5 first impressions: https://simonwillison.net/
- TechCrunch — GPT-5.5 release: https://techcrunch.com/
- OSWorld 벤치 (컴퓨터 사용): https://os-world.github.io/
출처
관련 기사

GPT-5.4 완전 해부 — 컴퓨터를 직접 조작하는 첫 번째 범용 모델의 모든 것
OpenAI가 GPT-5.4를 공개했다. 100만 토큰 컨텍스트, Computer Use 네이티브 탑재, OSWorld 75% 달성. 스펙, 벤치마크, 경쟁 구도까지 총정리.

OpenAI, API에 터미널을 심었다 — 모델 회사에서 에이전트 플랫폼으로
OpenAI Responses API에 Shell tool, 호스티드 컨테이너, Skills, Context Compaction 추가. 5백만 토큰 세션도 정확도 유지하는 에이전트 인프라의 등장.

OpenAI의 GPT-5.5 'Spud' 사전훈련 완료, 몇 주 내 출시 임박
3월 24일 사전훈련 완료된 GPT-5.5 'Spud'는 샘 알트만의 표현대로 경제를 '정말 가속화'할 수 있는 강력한 모델이 될 것으로 예상된다.
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.
