ZenBrain — 신경과학 영감 7-레이어 메모리로 LLM 에이전트의 '진짜 기억'을 설계하다
기존 에이전트 메모리가 VM 페이징이나 플랫 스토어 같은 시스템 공학 은유에 머물러 있는 동안, ZenBrain은 신경과학의 응고·재응고·망각 메커니즘을 7개 레이어와 9개 알고리즘으로 재현했다. LoCoMo F1 +21.6%, MemoryArena +19.5%.

+21.6 F1
사람한테 "어제 점심 뭐 먹었어?"라고 물으면 대부분 바로 대답해. 그런데 "3월 둘째 주 화요일 점심은?" 하면 갑자기 멈칫해. 뇌가 기억을 저장하는 방식이 시간과 중요도에 따라 달라지기 때문이야. 해마가 단기 기억을 잡아 두고, 수면 중에 피질로 옮기고, 감정적으로 강렬한 건 편도체가 먼저 태그를 붙여. 이 과정이 응고(consolidation)야.
LLM 에이전트는 이런 게 없어. 대화 로그를 벡터 DB에 때려 넣거나, 토큰 윈도우가 넘치면 오래된 걸 잘라 버리거나. 마치 운영체제의 가상 메모리 페이징처럼 작동하는 거야. ZenBrain은 이 접근을 근본적으로 뒤집어. 신경과학에서 검증된 15개 모델을 가져와 7개 메모리 레이어와 9개 알고리즘으로 재구성했고, 결과적으로 LoCoMo 벤치마크에서 F1을 21.6% 끌어올렸어. temporal 질의에서는 무려 176% 개선. 에이전트가 "3월 둘째 주 화요일에 뭘 했는지" 드디어 제대로 기억하기 시작한 거야.
쉽게 말하면 — 에이전트 메모리의 근본 문제
지금 시장에 있는 에이전트 메모리 시스템은 크게 두 가지 패턴이야. 첫째, 컨텍스트 윈도우에 대화 히스토리를 통째로 넣는 방식. 토큰 한계가 오면 오래된 메시지부터 잘라내. 둘째, 벡터 DB에 임베딩해서 검색하는 RAG 방식. 코사인 유사도로 가장 가까운 청크를 꺼내 오는 구조야.
둘 다 "시스템 공학" 은유에 갇혀 있어. VM 페이징, 플랫 키-밸류 스토어, LRU 캐시. 인간의 기억이 가진 핵심 속성 세 가지 — 응고(consolidation), 망각(forgetting), 재응고(reconsolidation) — 를 전혀 반영하지 않아. 그래서 에이전트가 100턴 넘는 대화를 하면 시간 순서가 뒤엉키고, 중요한 맥락을 잃고, 같은 정보를 반복 질문하는 현상이 나타나.
ZenBrain 논문의 핵심 주장은 단순해. "기억은 저장(storage)이 아니라 과정(process)이다." 저장만 신경 쓰면 검색 품질이 떨어지고, 과정까지 모델링하면 장기 상호작용에서 일관성이 유지된다는 거야. 이 "과정"을 구현하기 위해 신경과학에서 빌려 온 구조가 7개 레이어야.
연구진 / 출처
Alexander Bering이 단독 저자야. 소속은 Zensation AI. 2026년 4월 26일 arXiv에 제출했고, 현재 cs.AI 카테고리 엔도스먼트를 기다리는 상태야. HuggingFace Forums에서 엔도스먼트 요청 스레드가 올라왔고, 거기서 아키텍처에 대한 기술 토론이 진행 중이야. 논문은 arXiv 2604.23878에서 전문을 읽을 수 있어.
7개 레이어 해부 — working부터 cross-context까지
ZenBrain의 메모리 아키텍처는 뇌의 다중 기억 시스템 이론(Atkinson-Shiffrin, Tulving 에피소드/의미 구분, Squire 절차적 기억)을 참고해서 7개 레이어로 나뉘어.
| 레이어 | 이름 | 신경과학 대응 | 역할 |
|---|---|---|---|
| L1 | Working Memory | 전두엽 작업 기억 | 현재 턴의 활성 맥락. 용량 제한 있음 |
| L2 | Short-Term Memory | 해마 단기 저장 | 세션 내 최근 상호작용 버퍼 |
| L3 | Episodic Memory | 해마-피질 에피소드 기억 | 구체적 사건의 시공간 맥락 보존 |
| L4 | Semantic Memory | 측두엽 의미 기억 | 사실·개념·관계의 탈맥락화된 지식 |
| L5 | Procedural Memory | 기저핵-소뇌 절차 기억 | 행동 시퀀스, 도구 사용 패턴, 습관 |
| L6 | Core Memory | vmPFC 자기 참조 기억 | 사용자 선호, 페르소나, 장기 목표 |
| L7 | Cross-Context Memory | 신피질 스키마 | 서로 다른 세션 간 공유되는 일반화된 지식 |
L1에서 L7로 갈수록 추상화 수준이 올라가고 안정성이 높아져. L1은 턴 단위로 갱신되지만 L6/L7은 강한 증거가 없으면 거의 바뀌지 않아. 이 구조의 핵심은 "레이어 간 이동"이야. 단기 기억이 반복되거나 감정적으로 중요하면 에피소드로 응고되고, 에피소드가 여러 번 활성화되면 의미 기억으로 추상화돼. 이게 인간 뇌의 기억 응고 과정과 같은 원리야.
특히 L6 Core Memory는 vmPFC(배내측 전전두피질)의 자기 참조 처리를 본떴어. 사용자의 핵심 선호나 페르소나 정보를 담는데, 일반적인 메모리 시스템에서 "유저 프로필"이 하는 역할이야. 다만 ZenBrain에서는 이걸 정적 프로필이 아니라 FSRS(Free Spaced Repetition Scheduler) 알고리즘으로 관리해. 활성화 빈도와 예측 오류에 따라 안정성이 동적으로 바뀌는 구조야.
L7 Cross-Context Memory는 가장 독특한 레이어야. 서로 다른 대화 세션에서 공통으로 나타나는 패턴을 추출해서 스키마로 만들어. 예를 들어 사용자가 코딩 세션에서도, 글쓰기 세션에서도 "간결한 것을 선호한다"는 패턴이 반복되면, 이게 cross-context 스키마로 승격되는 거야. 기존 에이전트 메모리에서는 세션 간 연결이 거의 없었는데, 이 레이어가 그 빈자리를 채워.
핵심 알고리즘 9개 — 신경과학에서 빌려온 것들
7개 레이어가 뼈대라면, 9개 알고리즘은 그 뼈대를 움직이는 근육이야. 15개 신경과학 모델에서 추출한 메커니즘을 소프트웨어로 번역한 거야. 하나씩 살펴보면 이렇다.
Two-Factor Synaptic Model. 시냅스 가소성의 BCM 이론을 가져왔어. 기억의 강도가 활성화 빈도와 최근성 두 요소의 곱으로 결정돼. 단순히 "몇 번 불렸나"가 아니라 "언제 불렸나"까지 반영하는 거야. 이게 레이어 간 기억 이동의 기준이 돼.
vmPFC-coupled FSRS. Free Spaced Repetition Scheduler를 vmPFC의 자기 참조 처리와 결합했어. Core Memory(L6)의 안정성을 관리하는 알고리즘이야. 간격 반복 학습에서 쓰는 FSRS를 에이전트 메모리에 적용한 건 이 논문이 처음이야.
Simulation-Selection Sleep. 수면 중 기억 응고를 모방한 오프라인 처리야. 에이전트가 비활성 상태일 때 에피소드 기억을 재생(replay)하면서 중요한 건 의미 기억으로 승격하고, 덜 중요한 건 약화시켜. 결과가 인상적인데, 37% 안정성 향상에 47.4% 스토리지 감소를 동시에 달성했어. 기억을 줄이면서 오히려 품질이 올라간 거야.
NeuromodulatorEngine. 도파민(DA), 노르에피네프린(NE), 세로토닌(5-HT), 아세틸콜린(ACh) 4가지 신경 조절 물질을 시뮬레이션해. 각각 보상 신호, 각성/주의, 기분/안정성, 학습 속도 역할을 하고, 이 4개 채널의 조합이 기억의 인코딩 강도와 검색 우선순위를 결정해. 예를 들어 예상치 못한 결과(높은 DA)가 나오면 해당 에피소드의 인코딩 강도가 올라가는 식이야.
ReconsolidationEngine. 재응고 엔진은 예측 오류(prediction error)에 의해 게이팅돼. 기존 기억을 검색했을 때 현재 상황과 불일치하면, 그 기억이 불안정 상태로 전환되고 업데이트될 수 있어. 이건 인간 뇌에서 기억을 떠올릴 때마다 약간씩 수정되는 현상을 그대로 모델링한 거야. 기존 에이전트 메모리에서는 한번 저장된 기억이 절대 바뀌지 않았는데, 이게 오래된 정보의 정확성을 떨어뜨리는 원인이었어.
TripleCopyMemory. 하나의 기억을 3개 복사본으로 유지하면서 각각 다른 감쇠율(decay rate)을 적용해. 빠른 감쇠, 중간 감쇠, 느린 감쇠. 이 구조 덕분에 30일 후에도 안정성 S(t)=0.912를 유지해. 단일 복사본이면 감쇠가 한 방향으로만 진행되는데, 세 복사본의 divergent decay가 장기 보존과 단기 반응성을 동시에 잡아.
PriorityMap. 4차원 우선순위 맵이야. 시간, 감정, 관련성, 빈도 네 축으로 기억의 검색 우선순위를 매겨. 편도체의 빠른 경로(fast-path)를 모방해서 감정적으로 중요한 기억은 다른 축의 점수가 낮더라도 빠르게 활성화돼. NDCG@10 = 0.997이라는 건 상위 10개 검색 결과의 랭킹이 거의 완벽하다는 뜻이야.
StabilityProtector. NogoA와 HDAC3의 기능을 소프트웨어로 옮긴 거야. 뇌에서 NogoA는 시냅스 재배선을 억제하고, HDAC3는 유전자 발현을 조절해서 기억의 과잉 수정을 막아. ZenBrain에서는 Core Memory와 Semantic Memory의 안정성을 보호하는 역할을 해. 재응고 엔진이 너무 공격적으로 기억을 수정하지 않도록 브레이크를 거는 장치야.
MetacognitiveMonitor. 시스템 전체의 메모리 상태를 모니터링하는 메타 인지 모듈이야. 기억의 충돌, 불일치, 과부하를 감지하고 개입 여부를 결정해. 인간의 "아, 이거 어디서 들었는데 정확히 기억 안 나" 같은 메타 인지 경험을 모델링한 거야.
결과 표 — benchmark comparison
| 벤치마크 | 메트릭 | 플랫 스토어 | RAG 기반 | ZenBrain | 개선폭 |
|---|---|---|---|---|---|
| LoCoMo | F1 (전체) | 0.42 | 0.51 | 0.62 | +21.6% (vs RAG) |
| LoCoMo | F1 (temporal) | 0.18 | 0.22 | 0.61 | +176% (vs RAG) |
| MemoryArena | 종합 점수 | 0.38 | 0.47 | 0.56 | +19.5% (vs RAG) |
| MemoryArena | 의존 체인 | 0.28 | 0.34 | 0.52 | +53.5% (vs RAG) |
| Sleep 효과 | 안정성 변화 | - | - | +37% | - |
| Sleep 효과 | 스토리지 변화 | - | - | -47.4% | - |
| TripleCopy | S(t) at 30d | - | - | 0.912 | - |
| PriorityMap | NDCG@10 | - | - | 0.997 | - |
temporal 질의에서 +176%가 특히 눈에 띄어. "3주 전 화요일에 논의한 예산 항목"처럼 시간 조건이 걸린 질문은 기존 시스템이 거의 맞추지 못했어. 벡터 유사도만으로는 "3주 전 화요일"이라는 시간 조건을 처리할 수 없으니까. ZenBrain의 에피소드 메모리가 시공간 맥락을 보존하기 때문에 이런 질의에서 압도적인 차이가 났어.
의존 체인 +53.5%도 실무적으로 중요해. "A를 결정했고, 그 결과로 B를 바꿨고, B 때문에 C를 다시 검토했다"는 식의 다단계 인과 관계를 추적하는 능력이야. 에이전트가 복잡한 프로젝트를 장기간 수행할 때 이 능력이 없으면 의사결정의 맥락을 잃어버려.
왜 흥미로운지 — 산업적 함의
첫째, 에이전트 메모리의 패러다임 전환 가능성이야. 지금까지 메모리는 "저장과 검색"의 문제였어. ZenBrain은 이걸 "인코딩, 응고, 검색, 재응고, 망각"의 생애주기 문제로 재정의해. 이 프레임 전환이 맞다면, 향후 에이전트 메모리 연구의 방향 자체가 바뀔 수 있어.
둘째, Simulation-Selection Sleep의 실용적 가치야. 에이전트가 비활성 상태(사용자가 자고 있을 때)에 메모리를 정리하면서 37% 안정성 향상과 47.4% 스토리지 감소를 동시에 달성했어. 이건 운영 비용과 직결돼. 벡터 DB 비용이 절반 가까이 줄면서 품질은 올라간다? 프로덕션 환경에서 이건 엄청난 이점이야.
셋째, 멀티세션 연속성이야. L7 Cross-Context Memory가 제대로 작동하면, 에이전트가 "저번 주 코딩 세션에서 당신이 선호한다고 한 패턴"을 글쓰기 세션에서 참고할 수 있어. 지금 대부분의 에이전트는 세션이 바뀌면 기억이 리셋되거나, 기껏해야 요약본만 넘기잖아. 세션 간 진짜 맥락 연속성은 에이전트가 "개인 비서" 수준으로 진화하는 데 핵심 요소야.
반론 / 한계점
가장 큰 의문은 실제 프로덕션 환경에서의 확장성이야. 7개 레이어와 9개 알고리즘을 동시에 돌리면 연산 오버헤드가 상당할 수 있어. 논문이 벤치마크 결과는 보여 줬지만, 레이턴시나 처리량에 대한 수치는 빠져 있어. 실시간 대화에서 Simulation-Selection Sleep이 작동하려면 비동기 처리 파이프라인이 필요한데, 이 부분의 엔지니어링 복잡도가 만만치 않을 거야.
또 하나, 단독 저자 논문이라는 점도 고려해야 해. Alexander Bering과 Zensation AI의 이전 연구 트랙 레코드가 공개적으로 확인되지 않아. 아이디어의 참신성은 높지만, 대규모 팀의 피어 리뷰를 거치지 않은 상태에서 재현 가능성이 검증되어야 해. HuggingFace Forums에서 엔도스먼트를 요청 중인 상태라는 것도 이 점과 연결돼. 벤치마크 수치가 인상적인 만큼, 독립적인 재현 실험이 나올 때까지는 어느 정도 유보적으로 볼 필요가 있어.
내일 아침에 할 것
이 논문이 던지는 질문은 명확해. "에이전트 메모리를 설계할 때 시스템 공학 은유(캐시, DB, 페이징)만 쓸 건지, 아니면 신경과학의 기억 생애주기까지 도입할 건지." 당장 프로덕션에 적용하기엔 검증이 더 필요하지만, 설계 철학 차원에서는 지금 바로 참고할 가치가 있어.
만약 에이전트 메모리를 직접 만들고 있다면, 이 세 가지만 먼저 확인해 봐. 첫째, 너의 메모리 시스템에 "망각" 메커니즘이 있는지. 모든 걸 영원히 저장하는 건 사실 성능 저하의 원인이야. 둘째, 시간 조건 질의를 제대로 처리할 수 있는지. 벡터 유사도만으로는 temporal reasoning이 안 돼. 셋째, 세션 간 맥락이 이어지는지. 대부분의 에이전트가 세션 리셋이라는 단절을 갖고 있어.
arXiv 2604.23878 전문은 HTML 버전으로도 읽을 수 있고, HuggingFace Forums에서 저자와 직접 토론도 가능해.
참고 자료
관련 기사

OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory
쉽게 말하면: 긴 대화 히스토리를 이미지로 렌더링해서 시각 모달리티를 '고밀도 압축 저장소'로 쓰고, 필요한 부분만 OCR해서 가져오는 메모리 방식. 환각도 줄임.

GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)
쉽게 말하면: 긴 작업에서 컨텍스트가 잡동사니로 차는 문제를, '결정에 필요한 정보 밀도'를 유지하는 4가지 컴포넌트로 풀어 9라운드 반복 GitHub 리서치에서 토큰 89.6% 절감.
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.
