400억 건의 금융 이벤트로 학습한 Revolut의 AI, 은행 업무를 언어처럼 읽는다
Revolut이 2,500만 사용자의 400억 건 금융 이벤트로 학습한 파운데이션 모델 PRAGMA를 공개했다. 사기 탐지 20% 향상, 신용 평가, 고객 생애 가치 예측까지 하나의 모델로 처리한다.

400억 건의 금융 데이터가 하나의 언어가 됐다
400억 건(40 billion events). Revolut이 자사 파운데이션 모델 PRAGMA를 학습시킨 데이터의 규모야.
2,500만 명의 사용자가 수년간 만들어낸 금융 이벤트 -- 송금, 결제, 환전, 투자, 구독 -- 를 하나의 거대한 "언어 코퍼스"로 취급했어. 마치 GPT가 인터넷의 텍스트를 읽듯, PRAGMA는 사람들의 돈의 흐름을 읽는 거야.
4월 9일 arXiv에 공개된 이 논문이 주목받는 이유는 간단해. 은행이 자체 파운데이션 모델을 만들어서 실제 프로덕션에 배포한 첫 번째 공개 사례이기 때문이야.
LLM 기법을 금융에 적용한다는 발상
파운데이션 모델(Foundation Model)은 GPT, Claude 같은 대규모 사전 학습 모델을 말해. 한 번 범용적으로 학습시킨 뒤, 다양한 하위 태스크에 미세 조정(fine-tuning)해서 쓰는 방식이야.
Revolut이 한 건 이 개념을 금융 데이터에 그대로 적용한 거야. 텍스트 대신 금융 이벤트 시퀀스를 토큰화(tokenization)하고, 마스크드 모델링(masked modelling)이라는 자기 지도 학습 방식으로 사전 학습했어.
쉽게 말하면 이런 거야. "이 사용자가 월요일에 커피숍 결제, 화요일에 급여 수령, 수요일에 해외 송금을 했다면, 목요일에는 뭘 할 가능성이 높을까?" PRAGMA는 이 패턴을 수백억 건의 데이터에서 배워서 예측할 수 있게 된 거야.
| 모델 규모 | 파라미터 | 용도 |
|---|---|---|
| PRAGMA-10M | 1,000만 | 실시간 사기 탐지 (초저지연) |
| PRAGMA-100M | 1억 | 신용 평가, 크로스셀 예측 |
| PRAGMA-1B | 10억 | 정밀 분석 (지연 허용 태스크) |
3개 모델 모두 같은 사전 학습 가중치에서 출발해서, 태스크별로 미세 조정됐어. LLM 세계에서 흔히 쓰는 "하나의 기반 모델, 여러 응용"이라는 전략을 금융에 이식한 거야.
사기 탐지 20% 향상, 그리고 그 이상
PRAGMA가 해결하는 구체적인 문제들을 보면 왜 이게 중요한지 알 수 있어.
사기 탐지
기존 사기 탐지 시스템은 규칙 기반이었어. "해외에서 $5,000 이상 결제가 발생하면 경고" 같은 식이야. 문제는 사기꾼들도 이 규칙을 알고 있다는 거야.
PRAGMA는 개별 규칙이 아니라 사용자의 전체 행동 패턴을 이해해. 그래서 "이 결제가 이 사람의 평소 패턴과 다른가?"를 판단할 수 있어. 결과적으로 사기 탐지 정확도가 20% 향상됐어. 오탐(false positive)은 줄이면서 실제 사기는 더 많이 잡아내는 거야.
신용 평가
전통적인 신용 평가는 신용 점수, 소득, 부채 비율 같은 정형화된 데이터에 의존해. PRAGMA는 여기에 "이 사람이 실제로 돈을 어떻게 쓰는가"라는 행동 데이터를 더해. 결제 패턴, 저축 습관, 구독 관리까지 모두 신용 평가에 반영할 수 있게 된 거야.
고객 생애 가치(LTV) 예측
어떤 고객이 프리미엄 서비스로 업그레이드할 가능성이 높은지, 어떤 고객이 이탈할 위험이 있는지를 사전에 예측해. 이게 은행 입장에서는 마케팅 비용을 크게 절감할 수 있는 기능이야.
핵심은 이 모든 태스크를 하나의 사전 학습 모델의 임베딩(embedding)으로 처리한다는 거야. 각 태스크마다 별도 모델을 만들 필요 없이, PRAGMA의 임베딩 위에 간단한 선형 모델만 얹으면 강력한 성능이 나와.
200대의 H100으로 돌아가는 추론 시스템
논문만 있는 게 아니야. PRAGMA는 이미 Revolut의 실제 프로덕션 시스템에서 돌아가고 있어.
200대 이상의 NVIDIA H100 GPU 위에서 실시간 추론이 이루어지고, Revolut의 AI 비서 AIR(Artificial Intelligence by Revolut)의 핵심 엔진으로 사용되고 있어. AIR는 2026년 4월 현재 영국의 1,300만 고객에게 롤아웃 중이야.
이 인프라를 운영하는 데 Nebius(구 Yandex Cloud)의 AI 클라우드를 사용하고 있다는 점도 눈에 띄어. 유럽 핀테크가 유럽 기반 AI 인프라를 쓰는 건 GDPR 관점에서 중요한 선택이야.
은행이 AI 모델 회사가 되는 시대
PRAGMA가 보여주는 더 큰 그림은 이거야. 핀테크 회사들이 단순히 AI를 "사용"하는 단계를 넘어서, 자체 파운데이션 모델을 "만드는" 단계로 진입했다는 것.
JPMorgan의 IndexGPT, Bloomberg의 BloombergGPT 같은 시도가 있었지만, 이것들은 텍스트 기반 LLM에 금융 데이터를 추가 학습한 수준이었어. PRAGMA는 다르게 접근해. 텍스트가 아니라 금융 이벤트 시퀀스 자체를 모델의 네이티브 입력으로 설계했어.
| 모델 | 접근법 | 학습 데이터 |
|---|---|---|
| BloombergGPT | 텍스트 LLM + 금융 문서 | 금융 뉴스, 리포트 |
| IndexGPT | 텍스트 LLM + 금융 QA | 투자 자문 텍스트 |
| PRAGMA | 이벤트 시퀀스 모델 | 400억 건 실제 거래 데이터 |
차이가 분명해. BloombergGPT가 "금융에 대해 아는 AI"라면, PRAGMA는 "금융을 직접 경험한 AI"에 가까워.
그래서 뭐가 달라지는데
개발자와 핀테크 종사자에게 PRAGMA 논문이 의미하는 건 분명해.
첫째, 도메인 특화 파운데이션 모델의 시대가 열렸어. GPT, Claude 같은 범용 LLM이 있지만, 금융처럼 고유한 데이터 구조를 가진 도메인은 자체 파운데이션 모델이 더 효과적일 수 있다는 걸 PRAGMA가 증명했어.
둘째, 데이터가 해자(moat)라는 걸 다시 한번 확인해 줘. Revolut이 이 모델을 만들 수 있는 이유는 2,500만 사용자의 수년간 금융 데이터를 보유하고 있기 때문이야. 이 데이터는 어떤 스타트업도, 어떤 AI 연구소도 구할 수 없어. 진짜 경쟁 우위는 모델 아키텍처가 아니라 데이터야.
셋째, 한국의 카카오뱅크, 토스 같은 핀테크도 비슷한 규모의 금융 이벤트 데이터를 보유하고 있어. PRAGMA가 보여준 접근법을 참고하면, 한국형 금융 파운데이션 모델도 충분히 가능해.
참고 자료
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.


