spoonai
TOPAMIYann LeCunFunding

Yann LeCun의 AMI — $1.03B 시드의 진짜 의미와 World Model 기술 해부

튜링상 수상자가 Meta를 떠나 세운 AMI Labs. 유럽 역대 최대 시드 $1.03B, 기업가치 $3.5B. JEPA 아키텍처부터 투자자 명단까지 완전 정리.

·11분 소요·
공유
Yann LeCun, AMI Labs 설립자
Photo: Shutterstock

시드 라운드에 $1.03B — 왜?

보통 시드 라운드는 수백만 달러다. AMI Labs는 $1.03B(약 1.4조 원). 유럽 역대 최대. 기업가치 $3.5B. 창업 4개월 만에.

이 숫자만으로도 뉴스지만, 진짜 이야기는 왜 이 돈이 몰렸는지에 있다. LeCun이 LLM(Large Language Model, 대규모 언어 모델) 패러다임 자체에 도전장을 내밀었기 때문이다. ChatGPT, Claude, Gemini를 비롯한 모든 LLM을 떠받치는 오토리그레시브(autoregressive, 자기회귀 -- 이전 출력을 입력으로 다음 출력을 생성하는 방식) 패러다임에 대한 근본적 도전이다.

배경: Yann LeCun은 누구인가

Yann LeCun은 Geoffrey Hinton, Yoshua Bengio와 함께 "딥러닝의 3대 아버지(godfathers of deep learning)"로 불린다. 세 사람은 신경망 분야의 기초 연구로 2018년 튜링상(컴퓨터 과학의 노벨상)을 공동 수상했다.

주요 경력:

  • 1989년: AT&T 벨 연구소에서 합성곱 신경망(CNN, Convolutional Neural Network) 발명 -- 이미지에서 특징을 자동으로 추출하는 아키텍처로, 오늘날 거의 모든 컴퓨터 비전 시스템의 기반
  • 1998년: LeNet-5 개발. 손글씨 숫자 인식을 위한 최초의 실용적 CNN으로, 미국 우체국에서 수표의 우편번호 인식에 실제 사용
  • 2003년~현재: 뉴욕대학교(NYU) 교수
  • 2013년~2025년: Meta(구 Facebook) Chief AI Scientist
  • 2018년: 튜링상 수상 (Hinton, Bengio와 공동)
  • 2025년 11월: Meta 퇴사, AMI Labs 설립

LeCun의 명성은 학문적 업적에만 기반한 게 아니다. 그는 현재 AI 접근 방식의 근본적 한계에 대해 일관되고, 공개적으로, 그리고 종종 논쟁적으로 목소리를 높여왔다.

LeCun이 Meta를 떠난 이유

10년 넘게 Meta의 Chief AI Scientist였던 LeCun이 2025년 11월 퇴사했다. 배경:

  1. FAIR 해체: 2025년 10월 Meta가 Superintelligence Labs에서 600명을 해고. LeCun이 2013년에 직접 설립한 FAIR(Fundamental AI Research, 기초 AI 연구소) 인력도 포함됐다. FAIR는 기초 연구를 통해 PyTorch 프레임워크 등 업계 전체에 영향을 미친 성과를 냈지만, Meta의 전략이 기초 연구에서 제품 중심으로 전환되면서 축소됐다.
  2. 보고 구조 변경: Zuckerberg가 Scale AI 지분 49%를 $14B에 인수하고, Scale AI 창업자 Alexandr Wang을 데려와 AI 리더로 앉혔다. LeCun에게 Wang한테 보고하라고 했다.
  3. LeCun의 반응: "You certainly don't tell a researcher like me what to do."

투자자 — 이 명단이 말해주는 것

5개 공동 리드: Cathay Innovation, Greycroft, Hiro Capital, HV Capital, Bezos Expeditions (제프 베조스)

전략적 투자자: Nvidia, Temasek(싱가포르 국부펀드), Toyota Ventures, Samsung, Bpifrance(프랑스 국가투자은행)

개인 투자자: Tim Berners-Lee(웹 발명자), Eric Schmidt(전 Google CEO), Mark Cuban, Xavier Niel

Nvidia가 투자했다는 건, 하드웨어 레벨에서 World Model을 지원하겠다는 시그널이다. 특히 GPU 수요의 상당 부분이 LLM 학습에서 나오는 Nvidia가 LLM의 대안에 투자했다는 건, "어떤 패러다임이 이기든 우리가 칩을 판다"는 전략이기도 하다.

투자자들이 베팅하는 이유

  1. LeCun의 트랙 레코드: LeCun이 발명한 CNN은 한때 10년 넘게 무시당했다가, 컴퓨터 비전의 지배적 아키텍처가 되어 수천억 달러의 경제적 가치를 창출했다. World Model이 비슷한 궤적을 따른다면, 초기 투자자의 수익은 막대하다.
  2. 패러다임 보험: LLM에 강세 전망을 가진 투자자라도 대안적 접근에 노출되길 원한다. LLM이 정체되면, World Model이 다음 패러다임이 될 수 있다.
  3. 구체적 응용 분야: World Model은 로보틱스, 자율주행, 신약 개발, 시뮬레이션 등 수조 달러 규모의 시장에서 명확한 응용처가 있다.

World Model vs LLM — 기술적 차이

LLM의 구조적 문제

LeCun의 LLM 비판은 수년에 걸쳐 구체화됐다. 핵심 논거는 네 가지다:

1. 토큰(token, 텍스트의 최소 처리 단위) 예측은 이해가 아니다. LLM은 학습 데이터의 통계적 패턴에 기반해 다음 토큰을 예측한다. 세상이 어떻게 작동하는지에 대한 내부 모델이 없다. GPT-4가 물리학 문제를 올바르게 푸는 건 물리학을 이해해서가 아니라, 비슷한 질문-답변 패턴을 학습 데이터에서 봤기 때문이다. LeCun의 비유: "물리학 교과서를 외운 앵무새가 물리학 문제를 풀 수 있지만, 물리학을 이해하는 건 아니다."

2. 텍스트는 현실의 손실 압축(lossy compression)이다. 텍스트로 표현된 인간의 지식은 세상에 대한 우리의 이해 중 극히 일부다. 아이가 공을 100번 떨어뜨리면서 배우는 물리학이, 중력에 관한 교과서 100권을 읽는 것보다 많다. LLM은 주로 텍스트에서 학습하기 때문에, 체화되고 경험적인 인간 지식의 대부분을 놓친다.

3. 오토리그레시브 생성은 계획할 수 없다. LLM은 텍스트를 한 토큰씩, 왼쪽에서 오른쪽으로 생성하며, 되돌아가서 수정하는 능력이 없다. 앞을 내다보며 계획하지 못한다 -- 이전에 나온 것에 기반해 다음에 올 것만 예측할 뿐이다. 이로 인해 로보틱스, 신약 설계, 복잡한 엔지니어링 같은 다단계 계획이 필요한 작업에 근본적으로 부적합하다.

4. 스케일링으로는 이 문제를 해결할 수 없다. LeCun의 가장 논쟁적인 주장일 수 있다: LLM을 더 크게 만들고 더 많은 데이터로 학습시키는 것으로는 이런 근본적 한계를 극복할 수 없다는 것이다. 병목은 규모가 아니라 아키텍처 자체라는 주장이다.

이를 종합하면:

  • 텍스트에서 학습. 다음 토큰을 예측.
  • 지식이 단어 간 통계적 상관관계. 물리적 현실에 대한 이해 없음.
  • 에러가 기하급수적으로 누적: 각 토큰의 오류 확률이 e라면, N개 토큰의 정확도는 (1-e)^N. 99% 정확도로 1,000토큰 생성하면 전체가 맞을 확률은 0.004%.

World Model의 접근

  • 감각 데이터(주로 비디오)에서 학습. 텍스트가 아니다.
  • 물리 환경이 시간에 따라 어떻게 변화하는지 학습.
  • 행동의 결과를 실행 전에 시뮬레이션 — 진정한 계획 능력.
  • 상관관계가 아니라 인과관계를 이해.

LeCun의 핵심 논거: 언어는 세상의 손실 압축(lossy compression)이다. 아이가 첫 1년에 물리학에 대해 배우는 것이, LLM이 수조 토큰에서 배우는 것보다 많다.

JEPA(Joint Embedding Predictive Architecture, 결합 임베딩 예측 아키텍처) — 기술적 기반

핵심 논문: "A Path Towards Autonomous Machine Intelligence" (2022년 6월). 이 86페이지 분량의 포지션 페이퍼(position paper)에서 LeCun은 자율 기계 지능을 향한 구체적인 아키텍처 청사진을 제시했다.

작동 방식 — LLM, 디퓨전 모델과의 비교

LLM: 시퀀스에서 다음 토큰을 예측한다.

입력: "고양이가 매트 위에" → 예측: "앉았다"

디퓨전 모델: 노이즈가 가득한 이미지를 단계적으로 정제한다.

노이즈 → 덜한 노이즈 → ... → 깨끗한 이미지

JEPA: 입력의 한 부분으로부터 다른 부분의 추상적 표현을 예측한다.

[세계 상태의 부분 관측]
  → 인코더 → [추상 표현]
    → 예측기 → [누락된 부분의 예측된 표현]
      → [누락된 부분의 실제 표현]과 비교

핵심적 차이: JEPA는 픽셀이나 토큰을 예측하지 않는다. **추상적 표현(representation, 고차원 특징 벡터)**을 예측한다. 이것이 중요한 이유:

  1. 추상화가 무관한 디테일을 걸러낸다: 비디오 프레임의 모든 픽셀의 정확한 RGB 값을 예측하는 건 낭비다. JEPA는 고수준 특징(물체, 움직임, 관계)만 예측한다.
  2. 표현이 인과 구조를 포착할 수 있다: 단순 통계적 상관관계가 아니라, "물체를 밀면 움직인다"같은 인과관계를 학습할 수 있다.
  3. 계획이 자연스러워진다: World Model이 있으면 텍스트나 이미지를 생성하지 않고도 미래 상태를 시뮬레이션할 수 있다. "X를 하면 어떻게 되는가?"가 예측기의 순방향 패스(forward pass) 하나로 해결된다.

에너지 기반 모델(Energy-Based Model)

JEPA는 에너지 기반 모델(EBM, Energy-Based Model)로 구현된다. LLM처럼 출력에 확률을 부여하는 대신, EBM은 입력과 출력 사이의 호환성을 나타내는 스칼라 값(단일 숫자)인 "에너지"를 부여한다. 에너지가 낮으면 호환, 높으면 비호환이다. 예를 들어 "컵을 테이블 끝에서 밀면 떨어진다"는 시나리오는 낮은 에너지를, "컵이 공중에 떠있는다"는 시나리오는 높은 에너지를 받는다. 이 접근은 모든 가능한 출력에 확률을 부여해야 하는 생성 모델의 "차원의 저주(curse of dimensionality)"를 피할 수 있다.

Meta FAIR에서 나온 구현

모델 발표 설명
I-JEPA 2023.6 이미지. 마스킹(가린) 영역을 표현 공간에서 예측. ImageNet 선형 평가에서 기존 자기지도 학습 방법과 동등한 성능을 달성
V-JEPA 2024.2 비디오. 시간적 역학(temporal dynamics) 학습. 레이블 없이 비디오만으로 물체의 움직임과 상호작용을 이해

역할 이름 경력
Executive Chairman Yann LeCun 2018 튜링상, NYU 교수
CEO Alexandre LeBrun Nabla(의료AI) 전 CEO
COO Laurent Solly 전 Meta 유럽 VP
CSO Saining Xie 전 Google DeepMind

오피스: 파리(본사), 뉴욕, 몬트리올, 싱가포르. 설립 시점 약 50명의 연구자로 출발했으며, 18개월 내 200명 이상으로 확대할 계획이다. Meta FAIR, Google DeepMind, Google Brain 출신과 유럽 주요 대학 연구자를 적극 영입 중이다.

타겟 시장 — LLM이 실패하는 곳

AMI가 노리는 시장은 LLM이 본질적으로 약한 영역이다.

  • 산업 제조($16T 규모): 공장의 물리적 프로세스를 시뮬레이션하고 최적화하려면 물리 법칙을 이해해야 한다. 텍스트 기반 LLM은 "반도체 공정에서 온도를 5도 올리면 수율이 어떻게 변하는지" 같은 질문에 실질적인 답을 줄 수 없다.
  • 헬스케어: 의료 영상(MRI, CT)을 해석하고, 환자의 상태 변화를 예측하는 데는 시각적 세계 이해가 필수다.
  • 로보틱스: 물체를 집어올리기 전에 무게, 마찰, 중력을 고려해야 한다. 이것은 언어 문제가 아니라 물리 문제다.
  • 항공우주(Dassault가 투자자): 비행 시뮬레이션, 구조 해석 등 정밀한 물리 모델링이 핵심이다.
  • 자율주행(Toyota가 투자자): 다른 차량, 보행자, 날씨 등 복합적인 환경을 실시간으로 예측해야 한다.

공통점은 물리적 세계의 인과관계를 이해해야 하는 문제라는 것이다. LeCun은 이 영역에서 LLM은 근본적으로 한계가 있고, World Model이 필요하다고 주장한다.

경쟁 환경

World Labs (Fei-Fei Li)

스탠포드 교수 Fei-Fei Li의 World Labs는 2024년 9월에 $230M을 투자받아 3D 시각 지능을 위한 "Large World Models"를 만들고 있다. 두 회사 모두 "World Model"이라는 용어를 쓰지만 접근이 다르다:

  • World Labs: 3D 시각 이해와 생성에 집중
  • AMI: 추상적 표현 학습과 계획에 집중

AMI가 성공할 수 있는 이유

  1. LeCun은 이전에도 옳았다 -- CNN은 10년 넘게 무시당한 뒤 지배적 아키텍처가 됐다
  2. 타이밍이 맞을 수 있다 -- LLM 스케일링의 수익률이 체감 현상을 보이면서, 대안적 접근에 기회의 창이 열리고 있다
  3. 하드웨어가 준비됐다 -- 현대 GPU는 World Model이 요구하는 대규모 자기지도 학습(self-supervised learning)에 충분한 컴퓨트를 제공한다

AMI가 실패할 수 있는 이유

  1. World Model은 대규모에서 검증되지 않았다 -- 도메인 전반에 걸쳐 일반화하는 World Model을 아직 아무도 시연하지 못했다
  2. LLM은 계속 좋아지고 있다 -- 새 세대 모델이 나올 때마다 LeCun의 비판을 부분적으로 해소한다
  3. "그냥 데이터를 더 넣어라" 접근은 이기기 어렵다 -- LLM의 단순함("다음 토큰을 예측해라")이 놀라울 정도로 강력함을 증명해왔다

헬스케어: 최초의 시험대

AMI의 기술은 CEO Alexandre LeBrun이 이전에 설립한 Nabla(의료 AI 스타트업)를 통해 먼저 적용될 가능성이 있다:

  • 복잡한 생물학적 시스템 이해
  • 약물 상호작용과 부작용 모델링
  • 병력 기반 환자 경과 예측
  • 치료 결과 시뮬레이션

헬스케어가 자연스러운 첫 응용 분야인 이유:

  1. 생물학적 시스템은 인과 규칙을 따른다 (텍스트 생성과 달리)
  2. 오류의 비용이 높다 (LLM의 환각 현상이 용납될 수 없는 분야)
  3. 데이터가 다중 양식(바이탈, 영상, 검사 결과, 임상 노트)
  4. 계획이 필수적 (치료 계획은 미래 상태를 고려해야 함)

AI 산업에 미치는 영향 — 시간대별 전망

단기 (2026~2027)

  • 즉각적 파괴는 없다: AMI는 연구 단계 회사다. 곧 사용 가능한 제품을 기대하기 어렵다.
  • 인재 경쟁 심화: $1B의 자금이 최고급 AI 연구자 확보 경쟁을 더 치열하게 만들 것이다.
  • 내러티브 전환: "LLM이면 전부 된다"는 서사가 더 많은 검증 압력을 받게 된다.

중기 (2027~2029)

  • 첫 시연 결과: 특정 작업(로보틱스, 시뮬레이션, 계획)에서 World Model이 LLM을 앞서는 발표 결과가 나올 것이다.
  • 하이브리드 접근: 다른 연구소들이 World Model 개념을 LLM 아키텍처와 결합하려 할 것이다.
  • 투자 다변화: LLM 이외의 AI 접근 방식에 대한 벤처 투자가 늘어날 것이다.

장기 (2029년 이후)

  • AMI가 성공하면: 패러다임 전환 -- 물리적 세계를 진정으로 이해하는 AI 시스템이 로보틱스, 과학적 발견, 엔지니어링에서 돌파구를 연다.
  • AMI가 실패해도: $1B 투자가 기초 연구를 진전시키고, 수백 명의 연구자를 양성해 World Model 개념을 다른 조직으로 전파한다.

왜 중요한가

$3.5B 기업가치의 베팅 내용은 명확하다: LLM 패러다임 전체가 막다른 길일 수 있다는 것이다.

Nvidia, 베조스, 에릭 슈미트, 삼성, 도요타가 $1B을 넣었다는 건, 적어도 "LLM만으로는 안 될 수 있다"는 헤지(hedge, 위험 분산)를 하고 있다는 뜻이다. 특히 Nvidia의 참여가 의미심장하다. GPU 수요의 상당 부분이 LLM 학습에서 나오는데, LLM의 대안에 투자한다는 건 "어떤 패러다임이 이기든 우리가 칩을 판다"는 전략이기도 하다.

AMI가 성공하면 AI 산업의 판도가 바뀐다. 현재 LLM을 중심으로 형성된 생태계 -- 프롬프트 엔지니어링(prompt engineering), RAG(Retrieval-Augmented Generation, 검색 증강 생성), 파인튜닝 서비스 등 -- 가 재편될 수 있다. 실패하더라도, World Model 연구에 $1B이 투입됨으로써 이 분야의 연구가 크게 가속화될 것이다.

핵심 인용

"현재 AI 시스템은 기본적으로 고급 자동완성이다. 세상을 이해하지 못한다." -- Yann LeCun, 다수 공개 발언

"아기처럼 학습하는 기계가 필요하다 -- 인터넷을 읽는 게 아니라, 세상을 관찰하면서 배우는." -- Yann LeCun, Meta AI Day 2025

관련 프로젝트와 배경 지식

World Model 연구의 계보

World Model이라는 개념은 LeCun이 처음 제안한 게 아니다. 2018년 David Ha와 Jürgen Schmidhuber가 "World Models" 논문에서 VAE + RNN 조합으로 환경을 학습하는 에이전트를 만들었다. Google DeepMind의 Dreamer 시리즈(2020~2025)도 같은 맥락이다. LeCun의 차별점은 생성하지 않고 예측한다는 것이다. 기존 World Model은 미래 프레임을 픽셀 단위로 생성하려 했고, 이는 계산 비용이 막대했다. JEPA는 추상 공간에서 예측하므로 훨씬 효율적이다.

비디오 생성 모델과의 차이

Sora(OpenAI), Runway Gen-3, Kling(Kuaishou)은 비디오를 "생성"한다. AMI는 비디오를 "이해"하려 한다. 생성 모델은 "그럴듯한" 비디오를 만들지만 물리 법칙을 위반하기도 한다 (물이 위로 흐르거나 물체가 갑자기 사라지는 등). World Model은 물리적 인과관계를 이해하기 때문에 이런 오류를 구조적으로 방지한다.

대조 학습 vs JEPA

Self-supervised learning의 주류인 SimCLR, DINO 같은 대조 학습(Contrastive Learning)은 positive/negative 쌍을 구분하는 방식이다. JEPA는 대조 학습을 명시적으로 사용하지 않는다. 대신 하나의 뷰에서 다른 뷰를 예측하되, 예측 불가능한 정보는 무시하도록 학습한다. LeCun은 이것이 인간의 학습 방식에 더 가깝다고 주장한다 — 우리는 세상의 모든 디테일을 기억하지 않고, 중요한 추상적 구조만 학습한다.

로보틱스에서의 기대

AMI의 World Model이 가장 먼저 적용될 분야로 로보틱스가 꼽힌다. Toyota Ventures가 투자한 이유도 여기에 있다. 현재 로봇은 수만 번의 시행착오(trial-and-error)를 거쳐야 새 작업을 배운다. World Model이 완성되면, 로봇이 행동의 결과를 머릿속에서 시뮬레이션한 뒤 최적의 행동을 선택할 수 있다. "한 번의 시연으로 새 작업을 배우는 로봇"이 LeCun이 그리는 미래다.

리스크와 회의론

물론 회의론도 존재한다. JEPA가 학술적으로 흥미로운 접근이라는 건 인정하지만, 실제 산업용 제품으로 만들어진 적은 아직 없다. 연구 프로토타입과 상용 제품 사이에는 "죽음의 계곡(Valley of Death)"이 있으며, 이를 건너기까지 최소 3~5년은 걸릴 것으로 업계는 보고 있다. 또한 $1B이라는 자금이 충분해 보이지만, 대규모 컴퓨트 인프라 구축과 글로벌 인재 확보를 고려하면 결코 넉넉하지 않다. 비교를 위해 말하면, OpenAI는 2024년에만 $80B 이상의 기업가치로 자금을 조달했고, Google DeepMind의 연간 운영 비용은 $2B을 넘는 것으로 알려져 있다. AMI는 이들과 인재 경쟁을 해야 한다.

참고 자료

출처

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지