GPT-5.4 완전 해부 — 컴퓨터를 직접 조작하는 첫 번째 범용 모델의 모든 것

"AI가 대답하는 시대"에서 "AI가 직접 하는 시대"로

3월 5일, OpenAI가 GPT-5.4를 공개했어. 이건 단순한 버전 업이 아니야. 추론(Reasoning), 코딩, 에이전트 워크플로를 하나의 모델에 통합한 프론티어 모델이고, 컴퓨터를 직접 조작하는 능력(Computer Use)을 네이티브로 탑재한 최초의 범용 AI 모델이야.

지금까지 AI는 "물어보면 대답해주는 것"이었어. 근데 GPT-5.4부터는 "시키면 직접 해주는 것"으로 바뀌는 거야. 스크린샷을 보고 마우스를 클릭하고, 키보드를 입력하고, 심지어 Playwright 같은 브라우저 자동화 라이브러리를 직접 코드로 작성해서 실행할 수도 있어.

정리가 필요하다. 하나씩 뜯어보자.

배경: Computer Use가 왜 중요한가

AI가 컴퓨터를 직접 조작한다는 개념은 GPT-5.4가 처음이 아니야. 주요 타임라인을 보자:

시기	모델/제품	내용
2024년 10월	Anthropic Claude Computer Use	최초로 Computer Use 개념 시연 (베타)
2025년 1월	OpenAI Operator	별도 에이전트 제품으로 Computer Use 제공
2025년 3월	Google Project Mariner	Chrome 브라우저 내 자동화 에이전트
2026년 3월	OpenAI GPT-5.4	범용 모델에 Computer Use 네이티브 통합 — 최초

핵심 차이가 뭐냐면, 이전까지의 Computer Use는 모두 별도의 에이전트 제품이거나 실험적 베타였어. GPT-5.4는 이걸 API와 ChatGPT 모두에서 기본 기능으로 제공하는 첫 사례야. 모델 자체에 컴퓨터 조작 능력이 내장된 거지, 별도 도구를 붙인 게 아니야.

핵심 스펙 — 숫자로 보는 GPT-5.4

항목	GPT-5.4	GPT-5.2	개선
컨텍스트 윈도우	100만 토큰	128K 토큰	약 8x
OSWorld-Verified (Computer Use)	75.0%	47.3%	+27.7pp (인간 72.4% 초과)
개별 주장 오류율 감소	-33%	(기준)	—
전체 응답 오류율 감소	-18%	(기준)	—
추론 토큰 사용량	-33%	(기준)	—
이미지 인식 해상도	1,024만 픽셀	—	—
GDPVal (경제적 가치 업무)	83.0%	—	인간 전문가 수준

100만 토큰 컨텍스트. 이전 모델 GPT-5.2의 128K에서 거의 8배 늘어난 거야. 이게 왜 중요하냐면, 에이전트가 장기간 실행되는 복잡한 워크플로를 처리할 때 이전 작업의 맥락을 잃지 않을 수 있다는 뜻이야. 예를 들어 대규모 코드베이스 전체를 한 번에 읽고 리팩토링하거나, 수백 페이지 분량의 법률 문서를 한 세션에서 분석할 수 있어.

OSWorld — Computer Use의 진짜 테스트

OSWorld-Verified는 AI가 실제 컴퓨터 환경에서 복잡한 작업을 수행할 수 있는지를 측정하는 벤치마크야. 웹 브라우저를 열고, 폼을 채우고, 파일을 관리하고, 여러 애플리케이션을 오가며 작업을 완료하는 식이야. 인간 전문가의 성공률이 72.4%인데, GPT-5.4는 75.0%를 기록했어. 인간을 넘은 거야.

비교를 위해 말하자면, GPT-5.2는 같은 벤치마크에서 47.3%였어. 한 세대 만에 27.7 퍼센트포인트가 올랐다는 건, Computer Use 기술이 실험 단계를 넘어 실용 단계에 진입했다는 뜻이야.

WebArena — 브라우저 자동화 벤치마크

OSWorld가 데스크톱 전체를 테스트한다면, WebArena-Verified는 브라우저 환경에서의 자동화 능력을 측정해. 쇼핑몰에서 주문하기, 웹 앱에서 설정 변경하기, 여러 탭을 오가며 정보를 취합하기 같은 작업이야. GPT-5.4는 여기서 67.3%를 기록했어. OSWorld의 75%보다 낮은 건, 브라우저 환경이 더 복잡하고 동적인 요소(JavaScript 렌더링, 팝업, 비동기 로딩 등)가 많기 때문이야.

GDPVal — "AI가 진짜 돈이 되는 일을 할 수 있는가"

GDPVal은 경제적으로 가치 있는 업무를 AI가 얼마나 잘 수행하는지 측정하는 벤치마크야. 이메일 작성, 스프레드시트 분석, 보고서 초안 작성, 데이터 정리 같은 실제 오피스 업무를 포함해. GPT-5.4는 여기서 83.0%를 기록하며 인간 전문가 수준에 도달했어. 이건 "AI가 실제 경제적 가치를 만들 수 있는가"에 대한 가장 현실적인 테스트인데, 그 문턱을 넘은 거야.

모델 패밀리 — Thinking, Pro, Mini, Nano

GPT-5.4는 하나의 모델이 아니라 패밀리로 출시됐어:

모델	특징	대상
GPT-5.4 Thinking	추론 특화, 계획을 먼저 보여줌	ChatGPT Plus, Team, Pro
GPT-5.4 Pro	일반 고성능, Computer Use 포함	Pro, Enterprise
GPT-5.4 mini	코딩/추론 강화, 속도 2x+	API 대량 처리
GPT-5.4 nano	초경량, 엣지 디바이스	모바일, 임베디드

GPT-5.4 Thinking은 문제를 풀기 전에 "이렇게 접근할 거야"라는 계획을 미리 보여줘. 수학 선생님이 풀이 전에 칠판에 접근법을 쓰는 것과 같아. 덕분에 AI가 잘못된 방향으로 가고 있으면 중간에 방향을 바꿀 수 있어. GPT-5.2 대비 추론 토큰을 33% 절약하면서도 팩트 오류가 33% 줄었어. "더 적게 생각하면서 더 정확하게"라는 거야.

GPT-5.4 mini와 nano는 3월 17일에 추가 출시됐어. mini는 GPT-5 mini 대비 코딩과 추론에서 대폭 개선되면서 속도는 2배 이상 빨라. 대량 API 호출이 필요한 기업 워크로드에 최적화됐어.

컨텍스트 윈도우 심화 — 922K 입력 + 128K 출력

100만 토큰이라고 했지만, 정확히는 입력 922K + 출력 128K의 구조야. 이전 모델들은 입출력 합산 128K가 전부였는데, 이건 거의 8배 확장된 거야. 실무적으로 이게 뭘 의미하냐면:

코드 리뷰: 중형 프로젝트의 코드베이스 전체(수만 줄)를 한 번에 읽고 리팩토링 가능
법률 문서: 수백 페이지 분량의 계약서를 한 세션에서 분석
에이전트 작업: 장시간 실행되는 복잡한 워크플로에서 이전 작업의 맥락을 잃지 않음

다만 100만 토큰을 전부 사용하면 비용이 상당해. 개발자들은 필요한 컨텍스트만 선별적으로 투입하는 전략이 중요해질 거야.

좀 더 깊이 — Tool Search와 Financial Plugins

GPT-5.4에는 Tool Search라는 새로운 기능이 들어갔어. 수많은 도구(API, 플러그인, 함수) 중에서 현재 작업에 필요한 걸 AI가 알아서 찾아 쓰는 기능이야. 이전까지는 개발자가 사용할 도구를 미리 지정해야 했는데, 이제 모델이 스스로 판단해.

VentureBeat에 따르면 GPT-5.4는 Microsoft Excel과 Google Sheets용 금융 플러그인도 네이티브로 지원해. 재무 데이터 분석, 차트 생성, 피벗 테이블 작성을 자연어로 지시할 수 있어. 이건 금융 업계에서 큰 반향을 일으킬 기능이야.

OpenAI의 현재 위치

GPT-5.4 출시와 함께 주목해야 할 숫자들:

연환산 매출(ARR) $25B (약 35조 원) 돌파 — 소프트웨어 역사상 가장 빠른 매출 성장
ChatGPT 출시(2022년 11월)로부터 3년 반도 안 돼서 이 수준 도달
비교: Google은 5년, Facebook은 7년 걸림
2026년 말 IPO 검토 중이라는 보도
아직 적자지만, 매출 성장 궤적은 전례 없는 수준

경쟁 구도 — Computer Use 전쟁

Anthropic Claude

Anthropic은 2024년 10월 Claude Computer Use를 처음 시연했고, 이후 Claude 4.6에서 크게 개선했어. BrowseComp 벤치마크에서 Claude-4.6-Opus는 84.0점을 기록해 GPT-5.4의 82.7점보다 높아. 하지만 OSWorld에서는 GPT-5.4가 앞서. 두 회사의 Computer Use 접근 방식이 다른데, Anthropic은 스크린샷 기반의 픽셀 단위 조작에 강하고, OpenAI는 DOM/API 수준의 구조적 이해에 강하다는 평가가 나와.

Google Gemini

Google은 Project Mariner로 브라우저 자동화에 집중하고 있어. Gemini 3.1 Pro는 BrowseComp에서 85.9점으로 가장 높은 점수를 기록했어. 하지만 범용 Computer Use(데스크톱 전체 조작)에서는 아직 GPT-5.4와 Claude에 뒤처진다는 평가야. Google의 강점은 Workspace(Docs, Sheets, Slides)와의 깊은 통합이야.

주요 벤치마크 비교

벤치마크	GPT-5.4	Claude 4.6 Opus	Gemini 3.1 Pro
OSWorld-Verified	75.0%	—	—
BrowseComp	82.7	84.0	85.9
GDPVal	83.0%	—	—

Computer Use 시장은 아직 초기야. 어떤 모델이 "진짜 업무를 안정적으로 처리할 수 있는가"가 승부처가 될 거야.

개발자에게 주는 의미

에이전트 아키텍처가 바뀐다: 100만 토큰 컨텍스트와 Tool Search의 조합은 "도구를 미리 정의하는" 패러다임에서 "모델이 알아서 찾는" 패러다임으로의 전환을 의미해.
RPA 시장이 재편된다: Computer Use가 성숙하면 기존 RPA(Robotic Process Automation) 도구의 상당 부분이 AI 에이전트로 대체될 수 있어.
보안 이슈가 새로운 과제: AI가 컴퓨터를 직접 조작한다는 건, 잘못된 지시나 프롬프트 인젝션이 실제 시스템에 영향을 줄 수 있다는 뜻이야.
비용이 계속 하락할 것: mini와 nano 버전의 출시는 Computer Use가 고가 서비스만의 영역이 아니게 된다는 신호야.

가격과 접근성

모델	접근 방식	가격
GPT-5.4 Thinking	ChatGPT Plus ($20/월)	포함
GPT-5.4 Pro	ChatGPT Pro ($200/월)	포함
GPT-5.4 (API)	API	입력 $3/1M, 출력 $15/1M
GPT-5.4 mini (API)	API	입력 $0.40/1M, 출력 $1.60/1M
GPT-5.4 nano (API)	API	입력 $0.10/1M, 출력 $0.40/1M

mini와 nano의 가격이 특히 주목할 만해. nano는 100만 토큰 입력에 $0.10 — 이건 GPT-3.5 시절의 가격보다 저렴하면서 성능은 GPT-4 수준 이상이야. Computer Use가 더 이상 프리미엄 기능이 아니라 모든 규모의 개발자가 사용할 수 있는 기술이 되고 있다는 신호야.

GPT-5.4 완전 해부 — 컴퓨터를 직접 조작하는 첫 번째 범용 모델의 모든 것

"AI가 대답하는 시대"에서 "AI가 직접 하는 시대"로

배경: Computer Use가 왜 중요한가