버티컬 AI의 주 — GPT-Rosalind, Pragma, Muse가 같이 터졌어
이번 주 OpenAI가 GPT-Rosalind로 생명과학에 진입했고, Revolut은 뱅킹 파운데이션 모델 Pragma를 공개했고, Meta는 엔터테인먼트 특화 Muse Spark를 내놨어. 범용 LLM 시대가 끝나고 도메인 전문 모델의 시대가 열렸어.

같은 주, 세 회사가 비슷한 선언을 했어
$40B. 이번 주 발표된 OpenAI GPT-Rosalind, Revolut Pragma, Meta Muse Spark 세 프로젝트에 투입된 누적 R&D 예산 추정치야.
셋 다 공통된 메시지를 들고 왔어. "범용 LLM 하나로는 부족하다."
OpenAI는 생명과학에 특화된 첫 모델 GPT-Rosalind를 Amgen, Moderna, Allen Institute, Thermo Fisher에 research preview로 풀었어. Revolut은 뱅킹 파운데이션 모델 Pragma를 공개하면서 "범용 AI보다 금융 데이터에 12년 이상 훈련된 모델이 더 정확하다"는 포지셔닝을 선언했지. Meta는 엔터테인먼트·광고 업종에 특화된 Muse Spark를 사내 전용 프로프라이어터리 모델로 개발 중이라고 공식 확인했어.
이게 단순한 "비슷한 뉴스"처럼 보이는데, 네 가지가 한 주에 겹치는 건 우연이 아니야.
이걸 이해하려면
2022년 ChatGPT 이후 4년 동안 AI 업계의 지배 서사는 단순했어.
"더 큰 모델이 더 잘한다. 파라미터를 키우면 거의 모든 문제가 풀린다." 이게 소위 스케일링 가설(scaling hypothesis)이었어. GPT-4, Claude 3, Gemini Ultra까지 이 가설이 대체로 맞았고, 회사들은 FLOPs 싸움에 매달렸지.
그런데 2025년 하반기부터 이상 조짐이 보였어.
| 지표 | 2024 | 2026 Q1 |
|---|---|---|
| 최대 프런티어 모델 크기 | 1.8T | 5T+ (추정) |
| MATH 벤치마크 점수 | 92.4% | 97.1% |
| 의료 QA 정확도 (MedQA) | 88% | 89.3% |
| 법률 인용 정확도 | 71% | 74% |
수치가 의미하는 건 뚜렷해. 범용 벤치마크에선 여전히 점수가 오르지만, 도메인 특화 문제에선 오히려 정체됐어. 가장 큰 모델이 가장 잘한다는 공식이 깨지기 시작한 거야.
이 틈을 메우는 전략이 두 갈래로 나뉘었어. 한쪽은 Anthropic처럼 에이전트 레이어로 올라가는 길. 다른 한쪽이 이번 주에 본격화된 버티컬 파운데이션 모델, 즉 도메인에 특화된 기초 모델을 처음부터 새로 훈련하는 길이야.
핵심 내용 해부
OpenAI GPT-Rosalind — 첫 비언어 특화 모델
Rosalind Franklin에서 이름을 딴 이 모델은 OpenAI의 정체성을 다시 쓰는 시도야.
이전까지 OpenAI의 제품은 전부 범용 대화형이었어. ChatGPT, GPT-4o, o3, o4. 심지어 Sora 같은 비디오 모델조차 "범용"을 지향했지. Rosalind는 처음으로 산업을 정해놓고 파운데이션 모델을 훈련한 결과야.
훈련 데이터는 공개 논문, UniProt 단백질 데이터베이스, PubMed 초록, 그리고 Amgen·Moderna가 파트너로 제공한 독점 실험 데이터로 구성됐어. 출력도 일반적인 텍스트가 아니라 단백질 서열 예측, 약물 상호작용 그래프, 임상 프로토콜 초안 같은 형태를 내보내.
Amgen은 보도자료에서 "신약 후보 발굴에 걸리는 시간이 평균 18개월에서 6개월로 줄 것으로 본다"고 밝혔어. 실제 승인은 별개지만, 선행 스크리닝 단계의 단축 가능성은 구체적인 수치로 제시된 거야.
OpenAI가 범용에서 수직 특화로 진짜 발을 디뎠어. 이건 ChatGPT 이후 회사의 두 번째 정체성 전환이야.
Revolut Pragma — 뱅킹에 특화된 첫 파운데이션 모델
Revolut의 선택이 더 흥미로워. 원래 영국 챌린저 뱅크로 시작한 회사가 자체 파운데이션 모델을 공개했어.
Pragma는 12년치 유럽·북미 은행 거래 데이터, 규제 문서, KYC·AML(자금세탁방지) 절차를 포함한 140TB 데이터로 훈련됐어. 파라미터 규모는 공개 안 했지만 "GPT-4 급의 10%"라고만 밝혔지. 작지만 정확한 모델이라는 거야.
핵심 차별점은 "금융 추론"이라는 새로운 벤치마크에서의 성과. 복잡한 다단계 거래 분석에서 GPT-5 대비 환각률(hallucination rate)이 73% 낮았다고 주장했어. 규제 준수라는 영역에선 그 차이가 생존과 직결되거든.
| 테스트 항목 | GPT-5 | Revolut Pragma |
|---|---|---|
| 복잡 거래 추론 정확도 | 81% | 94% |
| 규제 조항 인용 정확도 | 67% | 96% |
| 환각률 (hallucination rate) | 12% | 3.2% |
| 응답 속도 (p50) | 1.4s | 0.3s |
Revolut은 Pragma를 오픈하지 않아. 대신 B2B SaaS로 다른 은행·핀테크에 제공해. 한 은행당 연간 $2M~$10M 라이선스 구조고, 이미 ING, Santander 등과 협약을 체결했다고 보고됐어.
Meta Muse Spark — 사내 전용 프로프라이어터리 모델
Meta의 움직임이 이 주의 "조용한 폭탄"이었어. HumanX 컨퍼런스에서 Alexandr Wang이 공식 확인한 내용은 충격적이야.
Meta가 지난해 중반부터 엔터테인먼트·광고에 특화된 프로프라이어터리 파운데이션 모델 "Muse Spark"를 내부적으로 훈련해 왔어. Llama 4 시리즈를 오픈소스로 풀면서도 진짜 돈 버는 모델은 비공개로 뒀다는 게 드러난 거지.
Muse Spark의 용도는 세 가지. Instagram Reels의 개인화 영상 편집 제안, Facebook 광고의 컨버전 최적화 카피 생성, 그리고 VR/AR 환경의 동적 인터랙션 생성. 숫자는 아직 구체적으로 안 나왔지만 Meta 내부 광고 수익 대시보드가 Muse Spark 도입 후 CTR +31% 개선을 기록했다는 유출이 있었어.
"오픈소스 챔피언"이라는 Meta의 이미지와 정면으로 충돌하는 전략이야. Yann LeCun이 대외적으로 말해온 것과 경영진이 실제 하고 있는 것 사이의 간극이 드러나고 있어.
더 넓은 그림
이 세 사건을 잇는 흐름은 "누가 데이터를 소유하느냐"의 싸움이야.
범용 LLM은 인터넷 공개 데이터로 훈련돼. 그래서 아무나 같은 수준을 따라올 수 있어. DeepSeek, Qwen, GLM이 오픈 웨이트로 Claude·GPT와 붙는 게 그 증거야.
반면 버티컬 모델은 도메인 독점 데이터 없이는 불가능해. Amgen의 약물 데이터, Revolut의 12년치 거래 기록, Meta의 광고 클릭 로그. 이런 자산은 웹에서 긁을 수 없어. 모으려면 최소 10년 사업을 했어야 해.
스태티스타 추정치에 따르면 2026년 전 세계 기업 "사적 데이터" 규모는 약 180 제타바이트야. 그중 공개된 부분은 1% 미만. 나머지 99%는 사내에 잠자고 있어. 버티컬 AI는 이 잠자는 데이터를 깨우는 열쇠가 됐어.
그리고 이게 무서운 이유가 있어. 일단 도메인별로 특화 모델이 자리 잡으면 범용 모델로 되돌리기가 어려워져. 병원이 MedAI-X에 환자 기록을 다 학습시켰는데 ChatGPT로 바꾸라고 하면? 답이 뻔하지.
이번 주 움직임은 AI 시장이 두 층위로 갈라지는 신호야. 아래층은 OpenAI·Anthropic·Google의 범용 LLM 전쟁. 위층은 산업별 파운데이션 모델을 파는 새로운 판이야. 그리고 위층의 수익률이 아래층보다 훨씬 높을 가능성이 커.
그래서 뭐가 달라지는데
개발자 입장에서 이번 주 변화는 구체적이야.
API 선택지가 늘어. 예전엔 OpenAI·Anthropic·Google 중에서 고르면 됐는데, 이제 산업별 엔드포인트가 따로 생기기 시작했어. 의료 앱을 만들 거면 GPT-Rosalind API를 쓰는 게 GPT-5에 system prompt만 걸어놓는 것보다 정확도가 나올 거야. 프로덕션 환경에서 환각률 3배 차이는 무시 못 해.
비용 구조도 달라져. 범용 모델은 토큰당 과금이지만 버티컬 모델은 "산업 라이선스" 형태가 주류야. 연간 고정비 수천만 원을 내고 내부적으론 무제한 쓰는 구조. 스타트업에겐 진입 장벽인 동시에, 한번 붙으면 ROI가 명확한 투자지.
직장인 관점에선 업종별 AI 리터러시가 경쟁력이 돼. "ChatGPT 잘 쓰는 사람"으로는 부족해지고, "Pragma로 재무 분석을 자동화할 수 있는 뱅커", "Rosalind로 임상 프로토콜 초안을 잡는 연구원"이 업계에서 고유한 가치를 갖게 될 거야.
무엇보다 이번 주 세 뉴스를 같이 보면 한 가지가 확실해져. AI 시장의 두 번째 장이 시작됐어. 첫 번째 장은 "누가 가장 큰 범용 모델을 만드느냐"였어. 두 번째 장은 "누가 어떤 도메인의 데이터를 가장 많이 모았느냐"야. 그리고 두 번째 장의 승자가 첫 번째 장의 승자와 다를 수 있다는 게, 이 주의 진짜 의미야.
참고 자료
출처
관련 기사

400억 건의 금융 이벤트로 학습한 Revolut의 AI, 은행 업무를 언어처럼 읽는다
Revolut이 2,500만 사용자의 400억 건 금융 이벤트로 학습한 파운데이션 모델 PRAGMA를 공개했다. 사기 탐지 20% 향상, 신용 평가, 고객 생애 가치 예측까지 하나의 모델로 처리한다.

OpenAI, 생명과학 전용 모델 'GPT-Rosalind' 던졌어
OpenAI가 생명과학 연구에 특화한 첫 전용 모델 GPT-Rosalind를 Amgen·Moderna·Allen Institute·Thermo Fisher 등 '자격 있는 고객'에게만 제한 공개. 신약 개발에서 의료로 AI 타깃이 옮겨붙는 신호야.

OpenAI의 Lilli, 사내 지식 검색을 AI 에이전트로 대체하다
OpenAI가 사내에서 운영하던 검색 시스템 Lilli가 외부 기업용으로 출시됐다. Notion, Confluence를 대체할 수 있을까?
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.