OpenAI 'duct-tape' 모델 정체 — GPT-Image 2로 추정되는 LM Arena 익명 테스트 2026

LM Arena(블라인드 이미지 모델 평가 플랫폼)에 이름도 없는 모델이 떴다. 정체는 packingtape-alpha. 몇 시간 뒤 흔적도 없이 사라졌다. 같은 주에 maskingtape-alpha, gaffertape-alpha가 연달아 등장했고, 역시 소리 없이 내려갔다. 커뮤니티는 이 셋을 묶어 "duct-tape 가족"이라 부르기 시작했다. 4월 둘째 주, 영문·일본어·한국어 AI 커뮤니티가 동시에 달궈진 이유다.

결론부터 말하면 이 글은 "duct-tape가 GPT-Image 2(추정 모델명)다"라고 단정하지 않는다. OpenAI는 공식적으로 어떤 것도 확인해 주지 않았다. 다만 여러 정황—기존 gpt-image-1.5의 렌더링 지문, DALL-E(2023년 첫 공개된 OpenAI 이미지 모델) 서비스 종료일이 2026년 5월 12일로 확정된 점, 그리고 익명 테스트 직후 커뮤니티에서 재현된 포토리얼 품질—이 모두 한 방향을 가리키고 있을 뿐이다. 강한 추론이지, 확정이 아니다. 이 구분을 놓치면 4월의 소음 속에서 길을 잃는다.

배경 — 왜 duct-tape가 지금 중요한가

현재 LM Arena text-to-image 리더보드 1위는 Google의 Nano Banana 2다. 2위는 OpenAI의 gpt-image-1.5. 이 순서가 뒤집힌 건 2025년 12월이었고, 4개월째 Google이 방어하고 있다. OpenAI가 2025년 4월 gpt-image-1을 내놓고 8개월 만인 12월에 gpt-image-1.5를 발표했던 과거 속도를 생각하면, 2026년 4~6월 사이에 차기 모델이 나올 시점이라는 게 업계 애널리스트 공통 견해다. DALL-E 서비스가 2026년 5월 12일 종료되는 것도 "강제 요인(forcing function)"으로 작용한다. OpenAI 입장에서는 대체재 없이 DALL-E를 끝낼 수 없다. 시간표가 이미 정해져 있는 셈이다.

duct-tape 세 모델의 익명 테스트 기간은 하루도 채 되지 않았다. 몇 시간 동안 수백 건의 블라인드 A/B 비교가 돌았고, 그 결과가 Threads·X·Reddit으로 퍼졌다. 한국 커뮤니티에서는 Threads의 @choi.openai가 올린 글이 바이럴됐다. 그는 "나노바나나 프로에 처음으로 압도당한 느낌"이라는 표현을 썼는데, 문맥상 duct-tape가 Nano Banana Pro를 역으로 압도했다는 뜻으로 읽혔다. 이 한 문장이 한국어 AI 업계에서 4월 둘째 주 내내 인용됐다.

본론 1 — 사람들이 본 것과 그게 왜 충격적인가

커뮤니티가 재현한 테스트 케이스는 세 부류로 정리된다. 첫째는 "이미지 안 텍스트 렌더링(text-in-image rendering)"이다. 가상의 OpenAI 홈페이지 목업을 프롬프트로 생성했더니 네비게이션 바, 버튼 레이블, 본문 카피까지 한 번에 정확한 철자로 나왔다. gpt-image-1.5에서도 텍스트 정확도는 30~40% 오탈자가 섞이는 게 현실이었는데, duct-tape 샘플에서는 10여 개 단어 길이 문장까지 무오류로 떨어지는 사례가 반복됐다. 리그 오브 레전드 스크린샷 목업에서는 KDA 숫자, 아이템 이름, 스킬 쿨다운 수치까지 픽셀 수준으로 정렬돼 있었다. 이건 Midjourney v7도, Nano Banana 2도 아직 신뢰도 있게 못 하던 영역이다.

둘째는 "세계 지식(world knowledge)"이다. 프롬프트에 특정 실존 공간—예컨대 "시부야 스크램블 교차로 새벽 4시 비 오는 장면"—을 넣으면 건물 배치, 간판 체인 로고, 횡단보도 라인 수까지 실제 구글 스트리트뷰와 맞는 결과가 나왔다고 보고됐다. 더 놀라운 건 IP 렌더링이다. 데몬 슬레이어 실사화 VFX, 토토로 스튜디오 지브리 화풍 포스터, 주술회전×리그 오브 레전드 콜라보 웹페이지 목업 같은 복합 프롬프트에서도 스타일 일관성과 디테일이 같이 잡혔다. gpt-image-1.5가 못 잡던 부분이다.

셋째는 포토리얼리즘이다. 인물 피부, 눈동자 하이라이트, 머리카락 끝단의 빛 산란—대개 "AI 티"가 나는 지점들이 duct-tape 샘플에서는 확연히 줄었다. 한국 커뮤니티에서 특히 화제였던 건 한글 렌더링이다. "카페 메뉴판에 '아메리카노 4,500원'을 적어라" 같은 지시에서 지금까지 어떤 모델도 하지 못하던 자연스러운 한글 글자꼴이 나왔다. choi.openai의 Threads 글이 폭발한 이유가 이것이다.

커뮤니티는 세 모델을 "duct-tape 1", "duct-tape 2", "duct-tape 3"으로 구분했고, 2번이 가장 균형 있다는 평이 많았다. 1번은 포토리얼이 강하지만 텍스트가 상대적으로 약했고, 3번은 스타일라이즈드 일러스트 쪽으로 기울어 있었다는 관측이다. 같은 체크포인트의 파인튜닝 변형일 가능성이 높다.

본론 2 — 확인된 약점과 남은 의문

완벽한 모델은 없다. duct-tape도 "루빅스 큐브 반사 테스트"를 통과하지 못했다. 거울 앞에 놓인 루빅스 큐브를 그리되 반사상이 물리적으로 정확해야 한다는 벤치마크인데, 2024년 이후 모든 공개 이미지 모델이 실패해 온 공간 추론 난제다. duct-tape는 반사 방향, 색깔 배치, 원근 왜곡 세 가지 중 평균 1~2개에서 계속 틀렸다. 이건 단순한 렌더링 품질 문제가 아니라 3D 공간 모델링 한계를 보여준다.

콘텐츠 필터는 오히려 더 공격적이었다. 기존 gpt-image-1.5에서 통과되던 프롬프트—역사적 전쟁 장면, 의료 일러스트, 일부 브랜드 로고 포함 목업—이 duct-tape에서는 거부됐다는 보고가 다수 나왔다. 상업 사용을 염두에 둔 OpenAI의 방어적 포지션일 가능성이 크지만, 솔로 빌더 입장에서는 워크플로우 설계 시 주의해야 할 지점이다.

그리고 핵심 의문들이 아직 열려 있다. 공개 API는 없다. 가격은 불명. 공식 SDK도 없다. "GPT Image 2"라는 이름조차 루머이고, 최종 제품명은 달라질 수 있다. 현재 확인된 건 오직 하나다. OpenAI로 강하게 추정되는 누군가가, 아주 잘 만든 이미지 모델을 몇 시간 동안 블라인드로 돌리고 내렸다는 사실뿐이다.

본론 3 — 시장이 받는 압력

duct-tape가 만약 실제로 GPT-Image 2라면, 가장 먼저 영향을 받는 건 Midjourney v7이다. Midjourney는 2025년 말 기준 월 구독자 2,100만 명(회사 공개 수치)으로 세계 최대 이미지 생성 서비스였다. 그러나 텍스트 렌더링과 세계 지식 영역에서 이미 gpt-image-1.5에게 밀리기 시작했고, duct-tape 수준의 결과가 API로 풀리면 "Midjourney는 예술, OpenAI는 실용"이라는 기존 구도 자체가 흔들린다. Google Imagen 4와 Nano Banana Pro는 이미 경쟁 중이라 영향권 바로 밑이고, 그 뒤로 Adobe Firefly, Canva Magic Design, Figma 내장 AI가 연쇄 압박을 받는다.

특히 솔로 빌더에게 이 변화는 크다. 지금까지 제품 목업이나 마케팅 애셋 하나 만들려면 멀티툴 파이프라인—이미지 생성 → Figma로 옮겨 텍스트 수정 → 포토샵으로 피부 리터칭 → Canva로 썸네일 조립—을 거쳐야 했다. 10~30분 작업이 duct-tape 수준 모델 하나로 "단일 프롬프트 3회 반복"으로 줄어든다. 이게 내가 4월 둘째 주부터 워크플로우를 재검토하기 시작한 이유다. 트레이딩 봇 대시보드 스크린샷, 사주 앱 랜딩 카피 목업, 커피챗 브랜딩 애셋—내가 쓰는 세 프로젝트 모두 이 변화의 직접 수혜자가 된다.

가격 수준은 여전히 미지수다. gpt-image-1.5가 이미지당 약 0.04~0.17달러(해상도·품질 따라)였는데, duct-tape가 기술적으로 더 무겁다면 인상될 수 있다. 그러나 OpenAI는 지난 2년간 동급 품질에서는 단가를 내려왔다. 이 패턴이 유지된다면 발표 시점에 유사 범위이거나 약간 상회하는 수준에서 시작할 가능성이 높다.

시사점 — 4월 16일 시점에서 내려야 할 결정

첫째, 추론과 사실을 섞지 마라. duct-tape가 OpenAI 것이라는 건 아직 "강한 커뮤니티 추론"이다. 블로그, 기획서, 클라이언트 제안서에 "OpenAI의 GPT-Image 2가 곧 나옵니다"라고 쓰면 2026년 5월 실제 발표에서 이름이 달라졌을 때 신뢰를 잃는다. "LM Arena에 OpenAI로 추정되는 duct-tape 가족이 떴다 사라졌다" 정도가 지금 말할 수 있는 최대치다.

둘째, 5월 초까지 기다려라. 분석가들이 5~6월 공개 론칭을 예상하는 근거는 DALL-E 종료 시점(5월 12일)이다. 그 전후 2주가 실제 공개 가능성이 가장 높은 구간이다. 지금 워크플로우를 완전히 갈아엎을 이유는 없다. 다만 제품 목업과 마케팅 애셋 파이프라인을 "duct-tape가 API로 풀렸을 때 어디를 가장 먼저 대체할 것인가" 기준으로 한 번 검토해 두는 건 값어치가 있다.

셋째, 솔로 빌더의 기회 포인트는 "텍스트-이미지 통합 생성이 신뢰할 수 있게 되는 순간"이다. 지금까지 한국어 UGC 서비스가 이미지 AI를 본격 도입하지 못한 가장 큰 이유가 한글 렌더링 품질이었다. duct-tape 수준이 API로 풀리면 이 장벽이 하룻밤 새 사라진다. 배너 제작, 쇼츠 썸네일, 상품 페이지 이미지—한국 소상공인 타겟 SaaS 시장에 새 창구가 열린다. 이건 내가 다음 분기 프로토타입에 집어넣을 가설이다.

네 번째이자 마지막. 이미지 모델 경쟁은 이제 "누가 더 예쁘게 그리나"가 아니라 "누가 실제 업무 파이프라인을 대체할 수 있나"로 축이 옮겨갔다. Nano Banana 2가 리더보드 1위인 지금도 그렇고, duct-tape가 실제 GPT-Image 2로 공개되든 이름이 다르게 나오든 이 축은 바뀌지 않는다. 솔로 빌더가 주의 깊게 봐야 할 건 모델 이름이 아니라 "내 워크플로우에서 몇 단계가 사라지는가"다.

LM Arena에 이름도 없는 모델이 떴다가 사라졌다. 확정된 건 아무것도 없다. 그러나 그 몇 시간이 다음 한 달의 로드맵을 바꿔 놓았다.

참고 자료

Make Me Rich AI 뉴스레터를 구독하면 매주 이런 정리가 메일로 도착한다. AI 프로덕트를 실제로 만드는 1인 개발자 관점에서 걸러낸 것만 보낸다. jidonglab.com에서 구독할 수 있다.