OpenAI, API에 터미널을 심었다 — 모델 회사에서 에이전트 플랫폼으로
OpenAI Responses API에 Shell tool, 호스티드 컨테이너, Skills, Context Compaction 추가. 5백만 토큰 세션도 정확도 유지하는 에이전트 인프라의 등장.

터미널이 생겼다
OpenAI가 조용히 뭔가 중요한 걸 건넸어. Responses API에 셸 터미널 액세스를 추가한 거야. API 호출했는데 모델이 grep 치고, curl 날리고, awk로 데이터 처리하고... 이런 식으로 컴퓨터를 직접 제어할 수 있게 된 거야.
이게 왜 중요한지 이해하려면 먼저 지금까지 API가 뭐였는지 생각해봐야 해. 지금까지는 텍스트 입력받고 텍스트 출력하는 게 다였어. 함수 호출(function calling)로 좀 더 나아졌지만, 결국 개발자가 "이 함수 써", "저 함수 써" 이렇게 지정해줘야 했어. 모델이 스스로 결정할 수 있는 범위가 제한적이었다는 뜻이야.
이제는 달라. 모델이 직접 컴퓨터에 손을 대는 거야.
API에서 에이전트 플랫폼으로
이번 업그레이드는 단순히 기능 몇 개 추가한 게 아니야. OpenAI가 사업 방향을 바꾸는 신호야.
생각해봐. OpenAI의 기본 비즈니스 모델은 뭐였어? 모델을 팔아. GPT API 호출할 때마다 돈 내고. 그런데 지금 업계가 뭘 원하는지 봐. 모델이 아니라 에이전트를 원하는 거야. 자동화된 업무, 자율적으로 움직이는 시스템을 원하는 거지.
OpenAI가 지금 손을 쓰는 건 정확히 여기야. 더 이상 "모델 회사"로만 머물지 않겠다는 선언이야.
Responses API에 추가된 핵심 기능들이 뭔지 보자. 이게 이전과 뭐가 다른지를 이해하는 게 중요해.
| 기능 | 설명 | 영향 |
|---|---|---|
| Shell Tool | 커맨드라인 접근 (grep, curl, awk 등) | 모델이 직접 컴퓨터 제어 가능 |
| Hosted Containers | Debian 12 with Python 3.11, Node.js 22, Java 17, Go 1.23, Ruby 3.1 | 코드 실행, 데이터 처리를 한 곳에서 |
| Context Compaction | 5백만 토큰 세션도 정확도 유지 | 장기간 실행되는 에이전트 가능 |
| Agent Skills | 재사용 가능한 에이전트 능력 표준화 | 에이전트 생태계 구축 가능 |
이 네 가지가 어떻게 작동하는지 더 깊이 들어가보자.
셸 툴: 컴퓨터가 마침내 손을 얻다
여태까지 AI 모델은 텍스트만 만들 수 있었어. 함수 호출로 좀 더 나아졌지만, 결국 개발자가 준비해둔 도구들하고만 상호작용할 수 있었어. 정해진 길만 갈 수 있다는 뜻이야.
이제는 모델이 셸에 접근할 수 있어. 이게 뭘 의미하냐면:
- 파일 시스템 조회 가능
- 명령어 실행 (grep으로 텍스트 검색, curl로 API 호출)
- 파이프 연결 (
cat file.txt | grep "pattern" | wc -l) - 결과 분석 및 다음 액션 결정
모델이 환경에 맞춰서 유연하게 움직일 수 있다는 거야. "이 데이터를 분석해야 하는데 뭘 써야 할까?" 이렇게 자율적으로 판단할 수 있게 된 거지.
Triple Whale이라는 회사의 사례를 보자. 이들은 컨텍스트 컴팩션으로 5백만 토큰에 달하는 세션을 운영했어. 150번의 도구 호출이 있었는데도 정확도가 떨어지지 않았대. 이게 가능한 이유가 컨텍스트 컴팩션이라는 기술 때문이야.
이전엔 토큰이 쌓이면 불가피하게 정보가 손실되거나 오류가 증가했어. 하지만 이제는 에이전트가 며칠 동안 실행돼도 정확도를 유지할 수 있다는 뜻이야.
Context Compaction: 장시간 기억하기
Context Compaction이 정확히 뭔지 이해해보자. 단순한 토큰 자르기가 아니야.
보통 API들은 토큰 제한이 있어. 컨텍스트 윈도우가 있고, 넘으면 자른다거나 합쳐야 해. 이건 마치 대화할 때 "이전 얘기 잊어, 최근 말만 기억해"라고 하는 거랑 비슷해. 문제는 뭐냐면, 중요한 정보가 빠질 수 있다는 거야.
OpenAI의 Context Compaction은 달라. 오래된 정보를 "요약"하는 게 아니라 "압축"해. 정보 밀도를 높이면서도 정확성을 유지하는 거지.
이게 뭘 가능하게 하냐면:
- 며칠짜리 복잡한 데이터 분석 작업
- 여러 단계의 문제 해결
- 맥락이 중요한 장기 프로젝트
GPT-5.4는 1백만 토큰 컨텍스트 윈도우를 가지고 있어. 그리고 OSWorld-V 벤치마크에서 75% 점수를 얻었어. 이게 뭘 의미하냐면 실제 컴퓨터 작업을 모델이 자율적으로 할 수 있다는 증거야.
호스티드 컨테이너: 끝내주는 샌드박스
이제 모델이 코드를 실행할 수 있어야 한다는 게 분명했어. 근데 문제가 있지. 보안이야.
OpenAI의 답은 호스티드 컨테이너야. container_auto라는 기능으로 Debian 12가 자동으로 프로비저닝돼. 그 안에는:
- Python 3.11
- Node.js 22
- Java 17
- Go 1.23
- Ruby 3.1
이 들어가 있어. 즉, 모델이 거의 모든 프로그래밍 언어로 코드를 짜고 실행할 수 있다는 뜻이야.
컨테이너의 장점이 뭘까? 격리야. 모델이 파괴적인 짓을 하려고 해도 그 영역 안에서만 가능해. 다른 사용자의 시스템에 영향을 주지 않아. 보안 측면에서는 완벽하진 않겠지만, 충분히 안전한 수준이야.
이게 가능하면 뭐가 바뀌냐면:
- 데이터 분석: 스크립트를 직접 실행
- 웹 스크래핑: Node.js로 크롤러 돌리기
- 시스템 자동화: 셸 명령어로 복잡한 작업 처리
- API 통합: curl로 다양한 서비스 연결
모델이 이전보다 훨씬 더 강력해진 거야.
Skills: 에이전트 생태계의 기초
OpenAI가 "Skills"를 표준화한 건 장기전 전략이야.
지금까지 에이전트 개발은 각자 자기 방식으로 했어. 어떤 회사는 자기들 방식대로 구성했고, 어떤 회사는 다르게 했어. 이렇게 되면 재사용할 수 없어. 바퀴를 계속 다시 만들어야 하고.
OpenAI가 Skills를 표준화하면서 뭘 하려는 거냐면, 에이전트가 이전 에이전트의 "능력"을 물려받을 수 있게 하려는 거야. 예를 들어, 한 에이전트가 "메일 보내기"를 배웠으면, 그 다음 에이전트는 그걸 그냥 가져다 쓸 수 있다는 거지.
이건 생각보다 혁명적이야. 지금까지는:
- 각 회사가 자기 에이전트를 개발
- 다른 회사의 에이전트와 연동 안 됨
- 같은 기능을 여러 번 만듦
이제는 가능할 수도 있어:
- 에이전트 마켓플레이스
- 특화된 Task를 처리하는 미니 에이전트들
- 더 큰 에이전트에 조합되는 빌딩 블록
OpenAI가 900M 주간 활성 사용자, 50M+ 구독자, 월 $2B 수익을 가지고 있는 상황에서 이런 표준화를 밀어붙이면... 업계 표준이 될 가능성이 높아.
이게 뭐가 다른 거냐?
이제까지 OpenAI의 전략을 정리해보자.
지금까지: 모델을 파는 회사
- API 호출 기반 수익
- 개발자가 모델을 어떻게 쓸지 결정
- OpenAI는 모델만 좋으면 됨
지금부터: 에이전트 플랫폼을 파는 회사
- 에이전트 실행, 호스팅, 모니터링
- OpenAI가 인프라를 제공
- Skills, 컨테이너, Context Compaction 등으로 생태계 구축
- 개발자가 더 쉽게 강력한 에이전트를 만들도록 유도
첫 번째 모델은 비교적 쉬워. 좋은 모델 만들고 API로 팔면 돼.
두 번째는 훨씬 더 깊어. 인프라를 구축하고, 표준을 만들고, 생태계를 형성해야 해. OpenAI가 그걸 하고 있는 거야.
더 넓은 맥락: 왜 지금?
OpenAI가 왜 이걸 지금 했을까? 이건 우연이 아니야.
첫째, 모델이 충분히 강해졌어. GPT-5.4가 OSWorld-V에서 75%를 맞힌다는 건 "모델이 우리 인프라 없이는 못 쓸 정도로 약하다"는 변명을 못 한다는 거야. 이제는 모델이 충분히 좋으니, 인프라로 경쟁해야 한다는 뜻이야.
둘째, 경쟁이 치열해졌어. Anthropic(Claude), Google(Gemini), Meta(Llama) 등이 앞다투어 모델을 내놓고 있어. 모델만으로는 충분하지 않다는 걸 OpenAI도 알고 있어. 그래서 에이전트 플랫폼으로 진화한 거야.
셋째, 개발자가 원하는 게 바뀌었어. 이제 개발자들은 "모델을 사용할 테니 좋은 모델만 주세요" 이러지 않아. "모델도 중요하지만, 이걸로 뭘 할 수 있나?"라고 묻고 있어.
실제로 뭐가 달라질까?
이건 좋은 이론이지만, 실제로는 어떻게 달라질까?
개발자 입장: 에이전트를 만드는 게 쉬워져. 이제 "셸 접근, 컨테이너, 장시간 세션"을 신경 쓸 필요가 없어. OpenAI가 제공하니까. 그냥 로직에만 집중하면 돼.
기업 입장: 자동화할 수 있는 범위가 엄청 늘어나. 지금까지는 AI가 분석만 할 수 있었어. 이제는 AI가 직접 컴퓨터를 조작해. 아마도 코드 리뷰, 데이터 파이프라인, 시스템 모니터링 같은 일들이 자동화될 거야.
OpenAI 입장: 더 높은 부가가치를 팔 수 있어. API 호출당 금액보다 "에이전트 실행" 기준으로 부과하면, 수익이 훨씬 커져. 특히 주간 900M 활성 사용자, 50M+ 구독자를 생각하면... 이건 엄청난 기하급수적 성장의 기회야.
주의할 점
물론 좋은 것만은 아니야.
먼저 보안. 모델이 컴퓨터에 직접 접근한다는 건 위험할 수 있어. 모델이 잘못된 명령을 실행할 수도 있고, 악용될 수도 있고. OpenAI가 컨테이너로 격리하긴 하지만, 완벽한 건 아닐 거야.
그리고 비용. 컨텍스트 컴팩션을 써도, 5백만 토큰 세션을 자주 실행하면 비용이 장난 아닐 거야. 이게 모든 개발자가 쓸 수 있을 정도로 저렴할까? 아직 모르지만, 처음엔 비싼 편일 가능성이 높아.
마지막으로 신뢰성. 아직까지 AI 모델의 "자율 실행"은 논란이 많아. 모델이 원하는 대로 행동하지 않을 수도 있고, 예상치 못한 버그를 만들 수도 있어. 회사가 이걸 얼마나 신뢰할 수 있을까? 아직은 미지수야.
결론: 플랫폼 전쟁이 시작됐다
OpenAI가 한 건 아주 단순해 보이지만, 실제로는 방향 전환이야.
모델 회사에서 플랫폼 회사로. API 판매에서 인프라 판매로. 개발자 도구에서 에이전트 생태계로.
이게 성공하면? OpenAI는 그냥 "좋은 모델을 파는 회사"가 아니라 "AI를 실행하는 모든 조직의 기초 인프라"가 되는 거야. 마치 AWS가 클라우드의 기초인 것처럼.
경쟁사들(Google, Anthropic, Meta)도 이걸 보고 따라올 거야. 하지만 먼저 만든 쪽이 표준을 정할 가능성이 높아. OpenAI가 Skills를 표준화했다면, 그게 업계 표준이 될 가능성이 높다는 뜻이야.
이건 단순히 "새로운 기능"이 아니야. AI 산업 구도 자체가 바뀌는 신호야.
참고 자료
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.



