LLM은 글로 추론하지 않는다 -- 진짜 추론은 잠재 상태에서 일어난다
arXiv 2604.15726 논문이 Chain-of-Thought의 근본 전제에 도전한다. LLM의 추론은 명시적 텍스트가 아니라 내부 잠재 상태에서 발생한다는 주장.

CoT가 "보여주기"에 불과하다면
쉽게 말하면 이거야. "단계별로 생각해봐(Let's think step by step)"라고 시키면 LLM이 추론을 잘한다는 게 Chain-of-Thought(CoT)의 핵심 아이디어잖아. 그런데 이 논문은 LLM이 실제로 추론하는 과정이 그 텍스트에 담긴 게 아니라, 트랜스포머 내부의 잠재 상태(latent state)에서 이미 일어나고 있다고 주장해.
즉, CoT 텍스트는 추론의 원인이 아니라 추론의 부산물일 수 있다는 거야.
연구진과 출처
트랜스포머 내부의 잠재 추론 경로 시각화
arXiv 2604.15726, 2026년 4월 게재. 이 논문은 포지션 페이퍼(position paper)야. 새로운 모델을 제안하는 게 아니라, 기존 관점에 이의를 제기하고 세 가지 가설을 정량적으로 검증하는 형태야.
기존 관점의 한계
CoT 프롬프팅은 2022년 Google Brain의 Wei et al. 논문 이후 AI 커뮤니티의 표준 기법이 됐어. "단계별로 생각하면 정확도가 올라간다"는 경험적 증거가 압도적이었거든.
하지만 몇 가지 설명 안 되는 현상이 있었어:
- CoT 텍스트를 랜덤하게 섞어도(shuffled CoT) 성능이 크게 떨어지지 않는 경우가 있어
- 모델이 잘못된 추론 과정을 적어놓고도 정답을 내는 경우가 있어
- 내부 표현(representation)을 분석하면, 정답이 CoT 텍스트 생성 전에 이미 결정되어 있는 징후가 보여
이런 관찰들이 "CoT가 정말 추론을 유발하는 건가, 아니면 추론은 이미 내부에서 끝난 걸 텍스트로 보여주는 것뿐인가?"라는 질문으로 이어졌어.
세 가지 가설 검증
논문은 세 가지 가설을 세우고 각각을 정량적으로 테스트했어.
| 가설 | 내용 | 결과 |
|---|---|---|
| H1: 잠재 추론 | 추론은 트랜스포머 내부 잠재 상태에서 발생 | 지지됨 -- CoT 텍스트 없이도 내부 표현에 정답 정보가 존재 |
| H2: 명시적 CoT | CoT 텍스트가 추론의 직접적 원인 | 약하게 지지 -- 효과는 있지만, 텍스트 품질과 무관한 경우 다수 |
| H3: 직렬 연산 | CoT는 추가 연산 단계(serial compute)를 제공하는 것이 핵심 | 부분 지지 -- 연산량 증가의 효과는 있으나, 그것만으로는 설명 불충분 |
핵심 발견은 H1이야. 프로빙(probing) 실험에서 모델의 중간 레이어 활성화를 분석했더니, CoT 텍스트가 생성되기 전에 이미 정답 관련 정보가 잠재 상태에 인코딩되어 있었어. CoT 텍스트는 이 잠재 추론의 "후행 설명(post-hoc explanation)"에 가깝다는 거야.
왜 중요한가
이 논문이 CoT 프롬프팅 전략에 미치는 영향 정리
이 논문이 맞다면, 우리가 CoT를 사용하는 방식을 재고해야 할 수도 있어.
첫째, OpenAI의 o1/o3 추론 모델에 대한 해석이 달라져. o1/o3는 긴 CoT를 생성하면서 추론하는 구조야. 하지만 이 논문의 관점에서 보면, o1/o3의 성능 향상이 "긴 텍스트를 생성해서"가 아니라 "더 많은 연산 단계를 거쳐서"일 가능성이 있어. 텍스트 내용 자체보다 토큰 수(= 연산량)가 핵심일 수 있다는 거야.
둘째, Google의 Gemini Thinking Mode에도 시사점이 있어. Gemini가 "생각하는 과정"을 보여주는 게 실제 추론 과정인지, 아니면 이미 끝난 추론의 설명인지에 대한 의문을 제기해.
셋째, 2025년의 "Thinking Without Words" 연구(추상적 CoT)와 연결돼. 텍스트가 아닌 추상적 토큰으로 "생각"할 수 있다는 연구가 있었는데, 이 논문은 그 방향의 이론적 근거를 강화해줘.
한계
포지션 페이퍼의 한계를 명확히 인식해야 해.
- 특정 모델과 벤치마크에 한정된 실험이야. 모든 LLM에 일반화할 수 있는지는 미지수야.
- "잠재 추론"의 정확한 메커니즘을 밝혀낸 건 아니야. "잠재 상태에 정보가 있다"는 걸 보여줬지, "어떻게 추론이 일어나는지"를 설명한 건 아니야.
- CoT가 완전히 무용하다는 주장이 아니야. CoT가 도움이 되는 건 맞는데, 그 이유가 우리가 생각했던 것과 다를 수 있다는 주장이야.
CoT 프롬프팅이 내일 당장 바뀌지는 않겠지만, "왜 CoT가 작동하는지"에 대한 우리의 이해는 분명 업데이트가 필요해.
References
관련 기사

GPT-5.4 Thinking 출시 — 33% 적은 토큰으로 33% 적은 오류, 추론 AI의 실용화 전환점
OpenAI가 GPT-5.4 Thinking을 공개했다. 추론 토큰 33% 절약, 팩트 오류 33% 감소, GDPVal 83.0%. 모델 패밀리, 벤치마크, 의미 총정리.

DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것
아키텍처(MoE Top-16, Engram Memory), 벤치마크(HumanEval 90%), 가격(Claude 대비 50배 저렴), 라이선스, API 사용법까지. 4월 정식 출시 전에 알아야 할 전부.

GPT-5.4 완전 해부 — 컴퓨터를 직접 조작하는 첫 번째 범용 모델의 모든 것
OpenAI가 GPT-5.4를 공개했다. 100만 토큰 컨텍스트, Computer Use 네이티브 탑재, OSWorld 75% 달성. 스펙, 벤치마크, 경쟁 구도까지 총정리.
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.
