OpenAI Codex가 '에브리띵 모드'를 달았어 — 컴퓨터 쓰고, 메모리 가지고, 며칠간 일해
OpenAI가 Codex에 computer-use, long-horizon memory, multi-tool agentic loop을 통합한 'Everything Mode'를 공개했어. 코드 생성이 아니라 코드 프로젝트 전체를 며칠 단위로 관리해.

며칠
Codex Everything Mode가 단일 작업을 며칠간 유지할 수 있다고 OpenAI가 공식 발표했어. 코드 생성이 아니라 프로젝트 수준 관리야. GitHub 이슈 50개 처리, 리팩토링 PR 20개 작성, CI 실패 원인 추적, 의존성 업그레이드 — 이런 걸 세션 끊김 없이 이어서 해.
이게 왜 새로우냐면, 그동안 agentic coding은 "한 번의 프롬프트에 한 번의 결과"에 머물러 있었거든. Everything Mode는 그걸 처음으로 깨뜨려.
이걸 이해하려면
OpenAI Codex는 2021년에 출시됐다가 2023년에 deprecated 된 후, 2024년에 GPT-5 기반으로 재출시됐어. 재출시 초기에는 Claude Code와 Cursor에 한참 밀렸어. 이유는 두 가지였어. 첫째, Claude가 agentic coding 벤치마크(SWE-bench)에서 꾸준히 앞섰고, 둘째, Cursor의 IDE 통합이 훨씬 개발자 친화적이었거든.
OpenAI는 2025년 하반기부터 Codex를 전면 재설계했어. GPT-5 Turbo 기반의 새로운 Codex는 Claude Sonnet 4.5와 4.6을 상대로 SWE-bench Verified에서 근소한 우위를 찾았고, Cursor 대신 자체 IDE 'Codex Studio'를 출시했어. 그래도 "Claude Code의 진정한 대안"이라는 인식은 못 얻었어.
출처: unsplash.com · Unsplash License
Everything Mode는 그 인식을 뒤집으려는 시도야. 단순 코드 생성 경쟁을 끝내고 '장기 에이전트' 카테고리로 판을 옮기는 거지.
핵심 내용 해부
Computer-use 통합
Codex Everything Mode의 첫째 축은 'computer-use' 통합이야. Claude Computer Use, OpenAI 자체 Operator와 같은 계보지만, 이번엔 IDE 환경에 깊이 박혀 있어. Codex가 브라우저를 열어 문서를 읽고, 대시보드를 확인하고, 티켓 시스템에서 이슈를 옮길 수 있어.
구체적 예시:
- GitHub Actions가 실패하면 Codex가 직접 Actions 탭을 열어 로그를 읽고, 원인을 찾고, 수정 PR을 만들어.
- Sentry 에러가 뜨면 Sentry 콘솔에서 스택트레이스를 확인하고, 해당 파일을 찾아가서 고쳐.
- Figma 디자인을 받으면 Figma 링크를 열어 레이아웃을 읽고, React 컴포넌트로 옮겨.
이게 단순히 API 호출을 대신한다는 것과는 다른 차원이야. API가 없는 도구와도 상호작용할 수 있다는 뜻이거든.
Long-horizon Memory
둘째 축은 메모리야. Codex가 프로젝트 단위의 장기 메모리를 유지해. 아래 표는 공개된 메모리 레이어야.
| 레이어 | 수명 | 용도 | 예시 |
|---|---|---|---|
| Session memory | 현재 세션 | 단일 작업 컨텍스트 | 현재 리팩토링하는 파일 목록 |
| Project memory | 프로젝트 삭제까지 | 코드베이스 지식 | 아키텍처 결정, 팀 컨벤션 |
| User memory | 계정 유지 기간 | 개발자 선호 | 언어·스타일·검토 패턴 |
| Global memory | OpenAI 학습에 기여 | 개선 데이터 | (opt-in only) |
Project memory가 핵심이야. 예를 들어 "우리 팀은 Tailwind를 안 쓰고 vanilla CSS만 써", "DB 마이그레이션은 항상 migrations/ 폴더에 번호 접두사로 저장해" — 이런 컨벤션을 한 번만 알려주면 Codex가 다음 세션부터 자동으로 따라.
Multi-tool Agentic Loop
셋째 축은 다중 도구 루프야. 기존 Codex는 "한 번에 한 도구"에 묶여 있었는데, Everything Mode는 Code Interpreter, Browser, Terminal, File System, Git, GitHub API, Docker, DB Client를 전부 병렬로 쓰면서 한 작업을 완수해. OpenAI는 이걸 'Atlas'라는 내부 프레임워크로 구현했어. Atlas는 여러 도구의 상태를 동시에 추적하면서 "다음 행동"을 결정해.
더 넓은 그림
Agentic coding 시장은 2026년 들어 세 진영으로 정리되고 있어.
| 진영 | 대표 제품 | 포지셔닝 | 강점 | 약점 |
|---|---|---|---|---|
| Anthropic | Claude Code | agentic first | 안정성, 코드 품질 | IDE 통합 부족 |
| OpenAI | Codex Everything Mode | 멀티 도구 + 메모리 | 확장된 도구, 장기 메모리 | 신뢰성 미검증 |
| 3rd party | Cursor, Windsurf, Zed | IDE first | UX, 속도 | 모델 경쟁력은 API 의존 |
Codex Everything Mode가 약속대로 동작하면, 지금까지 Claude Code가 독주하던 "며칠짜리 리팩토링" 영역을 처음으로 경쟁에 노출시키는 거야. Hacker News 초기 리뷰에서는 "GitHub 이슈 15개를 동시에 처리하면서 컨텍스트가 흔들리지 않았다"는 긍정 반응과 "computer-use가 여전히 느리고 브라우저 자동화가 자주 실패한다"는 부정 반응이 엇갈려.
출처: unsplash.com · Unsplash License
'code generation'에서 'software operations'로 카테고리가 넘어가고 있어. Everything Mode는 그 선언문이야.
가격 모델도 흥미로워. OpenAI는 Codex Everything Mode를 기존 GPT Pro $200/월 안에 포함시키고, 별도 "Codex Max" $400/월 플랜에서 computer-use 쿼터를 10배 늘렸어. Claude Code가 $100/월 Pro + API 과금 모델로 성공한 구조와 비교하면, OpenAI는 저가 공세로 개발자를 흡수하려는 의도가 명확해.
그래서 뭐가 달라지는데
개발자 관점에서 세 가지가 달라져.
첫째, 작업 단위가 바뀌어. "한 번의 프롬프트 = 한 번의 diff"에서 "한 번의 프롬프트 = 며칠간의 프로젝트"로 옮겨가. 이게 정착하면 개발자 역할이 '코드 작성자'에서 '에이전트 관리자'로 이동해. Claude Code가 이미 이 흐름을 시작했지만, Everything Mode는 그 정점에 가까워.
둘째, OpenAI 생태계 락인이 강해져. Project memory와 User memory가 OpenAI 쪽에 쌓이면, 그 메모리를 Claude Code나 Cursor로 이전할 방법이 없어. 지금까지 OpenAI는 Anthropic·Google에 비해 개발자 락인이 약했는데, Everything Mode가 이 약점을 메워줘.
셋째, computer-use의 신뢰성이 전체 제품 품질을 좌우해. Everything Mode의 핵심 기능이 브라우저 자동화인데, 이게 실패하면 며칠짜리 작업이 무너져. 초기 리뷰에서 지적된 것처럼 computer-use의 세션 안정성이 다음 3개월 동안 가장 중요한 개선 지표야.
관련해서, 최근 Amazon이 Anthropic에 $25B를 추가로 투자하면서 5GW Trainium 인프라를 붙인 발표를 같이 보면, frontier 경쟁에서 하드웨어·자본·에이전트 레이어가 동시에 움직이고 있다는 게 선명해져.
참고 자료
출처
관련 기사

GPT-5.4 완전 해부 — 컴퓨터를 직접 조작하는 첫 번째 범용 모델의 모든 것
OpenAI가 GPT-5.4를 공개했다. 100만 토큰 컨텍스트, Computer Use 네이티브 탑재, OSWorld 75% 달성. 스펙, 벤치마크, 경쟁 구도까지 총정리.

OpenAI, ChatGPT Pro 월 $100 출시 — Claude Code에 대한 진짜 대답일까
OpenAI가 ChatGPT Pro를 월 $100에 출시하며 Codex 접근을 대폭 확대했다. Claude Code의 $2.5B ARR에 대한 OpenAI의 반격 전략과 AI 코딩 도구 시장의 가격 전쟁을 분석한다.

OpenAI의 Lilli, 사내 지식 검색을 AI 에이전트로 대체하다
OpenAI가 사내에서 운영하던 검색 시스템 Lilli가 외부 기업용으로 출시됐다. Notion, Confluence를 대체할 수 있을까?
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.