+10.1pt

The University of Hong Kong 팀이 4월 29일 arXiv에 푼 논문이 한 줄로 정리되는 핵심 결과는 "추론 모델 + 적응형 검색 = +10.1pt absolute F1." 표준 RAG와 비교해서 MuSiQue·HotpotQA·2WikiMultiHopQA 평균 답변 F1이 10.1pt 절대 상승한 거야. 같은 시점, IRCoT 같은 고정 간격 검색 baseline 대비 검색 호출 수는 47% 감소. 정확도 ↑ + 비용 ↓의 보기 드문 동시 개선이야.

쉽게 말하면

DeepSeek-R1, OpenAI o1, Anthropic Claude의 thinking 모드 같은 "long chain-of-thought 추론 모델"은 답하기 전에 수천~수만 토큰을 내부적으로 쓰면서 문제를 풀어. 그런데 표준 RAG는 추론 시작 전에 외부 지식을 한 번 가져와 컨텍스트에 붙여 주는 구조라서, 추론이 길어지면 처음에 가져온 지식이 점점 stale해져. ReaLM-Retrieve는 "지금 추론 중인 이 단계에서 외부 지식이 필요한가?"를 학습된 정책으로 결정해 — 필요할 때만 검색을 호출하고, 그 결과를 추론 흐름에 자연스럽게 끼워 넣어.

연구진과 출처

Dongxin Guo (HKU 박사과정), Jikun Wu (HKU 박사과정), Siu Ming Yiu (HKU 교수, corresponding) 3인. 학회 발표 정보는 abstract 시점 미공개로, arXiv preprint(2604.26649)로 4월 29일 공개. 라이선스는 CC-BY. HKU CS 그룹은 RAG·검색 정책·LLM 평가 영역에서 2024년부터 꾸준히 발표해 온 곳이야.

기존 한계 — 왜 표준 RAG가 추론 모델에서 깨지는가

표준 RAG는 단발성 답변에 최적화돼 있어. 사용자 질문이 들어오면 (1) 한 번 검색 (2) 결과를 컨텍스트에 prefix (3) 모델이 한 패스로 답변. 그런데 추론 모델은 답변 전에 수천 토큰의 내부 사고를 거쳐. 그 사고 중간에 "아, 이걸 확인해야겠다"가 나오면? 표준 RAG는 그 시점에 검색을 호출할 메커니즘이 없어. 사고가 끝나고 잘못된 답이 나오거나, 사고 중간에 hallucinate한 가짜 fact 위에서 결론이 추론돼.

IRCoT 같은 interleaved retrieval 방식은 "고정 간격으로 검색 끼워넣기"로 풀려고 했는데, 이건 비용 폭발 문제가 있어. 매 N 토큰마다 검색하면 모델이 검색이 필요 없는 단계에서도 매번 검색을 부르고, 토큰·시간·비용이 다 늘어. ReaLM-Retrieve는 이 둘 사이를 정확히 잡아.

방법 — Step-Level Uncertainty + Retrieval Policy

핵심 아이디어 두 개. 첫째, "step-level uncertainty detector": 추론 chain의 각 단계에서 모델 자신의 확신도를 측정. 토큰 확률 분포의 entropy + 자기 일관성 휴리스틱 결합. 둘째, "retrieval intervention policy": uncertainty가 임계 넘으면 검색을 호출할지 결정하는 학습된 binary classifier. 검색 결과를 그대로 prefix하지 않고, 추론 흐름에 적합한 형태로 재구성해서 끼워 넣어.

학습은 강화학습 + supervised pseudo-label 결합. 정답이 알려진 멀티홉 QA 데이터셋(MuSiQue, HotpotQA)에서 "어느 step에서 검색했더라면 답이 맞았을까"를 시뮬레이션해서 pseudo-label을 만들고, 그 위에 RL로 정책을 미세조정. Inference 시점엔 정책이 단계마다 검색 여부를 결정하는 단순 forward pass.

결과 표

벤치	Standard RAG	IRCoT	ReaLM-Retrieve	차이
MuSiQue F1	61.1%	67.4%	71.2%	+10.1pt vs RAG
HotpotQA F1	73.4%	76.8%	80.5%	+7.1pt
2Wiki F1	65.2%	69.7%	74.8%	+9.6pt
평균 검색 호출/질문	1.0	3.4	1.8	-47% vs IRCoT
Evidence Recall@5	—	—	81.3%	—

세 벤치 평균 +10.1pt는 RAG 영역 1년치 진보로 평가될 만한 수치야. 동시에 검색 비용이 IRCoT 대비 절반 이하로 떨어진 게 실무 채택의 결정적 요인.

왜 흥미로운지

세 가지 의미가 있어. 첫째, 추론 모델의 RAG 부정합 문제가 처음으로 명료하게 진단됐어. 직관적으로는 알려져 있었지만 측정·해법이 같이 풀린 건 처음이야. 둘째, 검색 호출이 비용 결정 인자가 되는 시대에서, "정확도 ↑ + 호출 -47%"는 production RAG 파이프라인에 직접 적용 가능한 효율 개선. 일반적으로 정확도와 비용은 trade-off인데 이 논문은 동시 개선을 보여 줘. 셋째, 학습된 retrieval policy가 다른 도메인(코드 검색, 의료 QA, 법률 검색)으로 transfer 가능한지가 다음 핫이슈가 될 거야 — 같은 패턴이 다양한 retrieval 시나리오에 일반화될 가능성이 큼.

같은 주에 Stratechery와 Last Week in AI 모두 이 논문을 short pick으로 잡았어. r/MachineLearning에서는 "drop-in replacement 가능한가?"가 가장 많이 받은 질문 — 코드 공개가 안 됐지만 author들이 5월 중순 코드 release 약속.

반론 / 한계점

세 가지 한계가 명시돼 있어. 첫째, 학습에 정답 있는 멀티홉 QA 데이터가 필요해. 도메인에 따라 이런 데이터가 부족할 수 있음. 둘째, 검색 결과의 품질이 정책 학습에 영향 줘 — 검색 corpus가 노이즈가 많으면 정책도 오작동. 셋째, 추론 모델 안에서만 검증됐지 표준 LLM에선 효과가 다를 수 있음.

회의적 시각으로는 Yann LeCun (Meta AI 수석)이 비슷한 검색-추론 통합 논문에 대해 "structured world model 없이 retrieval만 끼워 넣는 건 임시방편"이라는 입장이 있어. 즉 RAG 자체가 LLM의 한계를 우회하는 hack이지 fundamental solution이 아니라는 의견.

한 줄 정리

추론 모델 + RAG의 구조적 부정합을 step-level uncertainty + retrieval policy 학습으로 해결, 정확도 +10.1pt + 검색 호출 -47% 동시 달성. 다음 12개월 RAG 파이프라인의 default 패턴이 될 가능성이 높아.

참고 자료

논문: https://arxiv.org/abs/2604.26649
DeepSeek-R1 (related base): https://github.com/deepseek-ai/DeepSeek-R1
IRCoT (비교 baseline): https://arxiv.org/abs/2212.10509
MuSiQue 벤치: https://github.com/StonyBrookNLP/musique
HKU CS 그룹: https://www.cs.hku.hk/

+10.1pt — 추론 모델은 RAG와 안 맞는다, 그래서 추론 도중에 검색하기로

+10.1pt

쉽게 말하면

연구진과 출처

기존 한계 — 왜 표준 RAG가 추론 모델에서 깨지는가

방법 — Step-Level Uncertainty + Retrieval Policy

결과 표

왜 흥미로운지

반론 / 한계점

한 줄 정리

참고 자료

출처

관련 기사

OpenAI의 Lilli, 사내 지식 검색을 AI 에이전트로 대체하다

MemPalace 비판 논문: '기억의 궁전' 메타포가 진짜 왜 잘 먹히는지 분석

PraisonAI — 5줄 코드로 24/7 AI 워크포스를 띄우는 멀티 에이전트 프레임워크

+10.1pt

쉽게 말하면

연구진과 출처

기존 한계 — 왜 표준 RAG가 추론 모델에서 깨지는가

방법 — Step-Level Uncertainty + Retrieval Policy

결과 표

왜 흥미로운지

반론 / 한계점

한 줄 정리

참고 자료

출처

관련 기사

OpenAI의 Lilli, 사내 지식 검색을 AI 에이전트로 대체하다

MemPalace 비판 논문: '기억의 궁전' 메타포가 진짜 왜 잘 먹히는지 분석

PraisonAI — 5줄 코드로 24/7 AI 워크포스를 띄우는 멀티 에이전트 프레임워크

AI 트렌드를 앞서가세요