spoonai
TOPMetaLlama4OpenSource

Meta Llama 4 Scout: 컨텍스트 1000만 토큰, 오픈소스가 GPT-4 수준에 도달했다

Meta가 17B 활성 파라미터의 MoE 모델로 업계 최장 1000만 토큰 컨텍스트 윈도우를 달성했다. 단일 H100에서 실행 가능하고, 주요 벤치마크에서 Gemma 3와 Gemini 2.0 Flash를 앞선다.

·6분 소요·Meta AI Blog
Meta Llama 4 Scout 모델 발표 이미지
출처: Meta AI Blog

오픈소스 AI 모델이 GPT-4 수준에 닿았다는 말이 드디어 설득력을 갖게 됐다.

Meta가 공개한 Llama 4 Scout는 17B 활성 파라미터(active parameters)와 16 전문가 MoE(Mixture of Experts, 전문가 혼합 아키텍처) 구조로 업계 최장인 1000만 토큰 컨텍스트 윈도우(context window, 한 번에 처리할 수 있는 텍스트 길이)를 달성했다. 텍스트·이미지·오디오·비디오를 단일 모델에서 네이티브로 처리하며, 단일 NVIDIA H100 GPU에서 실행 가능하다. 그리고 40조 토큰 훈련 데이터로 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1을 주요 벤치마크에서 앞선다.

이걸 이해하려면: Llama 시리즈와 오픈소스 AI의 진화

Meta의 오픈소스 전략

Meta가 AI 모델을 오픈소스로 공개하는 이유는 뭔가? 주요 수익원이 광고인 Meta는 AI 모델 자체를 팔지 않는다. 대신 오픈소스 공개를 통해 세 가지를 얻는다.

첫째, 인재 유치다. 세계 최고 AI 연구자들이 Meta의 연구를 기반으로 작업하면서 자연스럽게 Meta로 모인다. 둘째, 생태계 장악이다. Llama가 오픈소스 AI의 사실상 표준이 되면, Meta 아키텍처를 중심으로 도구와 라이브러리가 구축된다. 셋째, OpenAI 견제다. 오픈소스 강자가 없으면 OpenAI와 Google의 독점이 심화되는데, Meta는 이를 이익이 없다고 본다.

Llama 시리즈의 진화를 보면:

버전 출시 파라미터 주요 혁신
Llama 1 2023.2 7B–65B 최초 공개 LLM, 연구용
Llama 2 2023.7 7B–70B 상업 사용 허가 포함
Llama 3 2024.4 8B–70B 멀티링구얼, 코드 강화
Llama 3.1 2024.7 8B–405B 405B 대형 모델, 128K 컨텍스트
Llama 4 Scout 2026 17B 활성/MoE 10M 컨텍스트, 네이티브 멀티모달

Llama 1에서 Llama 4까지 3년이 걸렸다. 이 기간 동안 오픈소스 AI의 성능 격차가 어떻게 좁혀졌는지가 이번 발표의 핵심 맥락이다.

MoE 아키텍처란 무엇인가

MoE(Mixture of Experts, 전문가 혼합)는 대형 모델의 파라미터를 모두 활성화하지 않고, 각 입력에 따라 가장 적합한 "전문가 서브네트워크"만 선택적으로 활성화하는 구조다.

Llama 4 Scout의 경우, 전체 파라미터는 크지만 실제 추론 시 활성화되는 파라미터는 17B다. 이를 통해 추론 비용을 크게 줄이면서도 높은 성능을 유지한다. 비유하자면, 모든 직원이 항상 일하는 게 아니라 필요한 전문가만 호출해서 쓰는 방식이다.

GPT-4도 MoE 구조를 쓴다고 알려져 있다(공식 확인은 없지만). Mistral의 Mixtral 8x7B가 오픈소스 MoE의 첫 성공 사례를 보여줬고, Llama 4 Scout는 이를 더 큰 규모로 확장했다.

핵심 내용 해부

1000만 토큰 컨텍스트 윈도우의 실제 의미

1000만 토큰이 얼마나 큰지 감이 안 오면 이렇게 생각해보자. 일반적인 책 한 권이 약 10만 토큰이다. 1000만 토큰은 책 100권 분량을 한 번에 처리할 수 있다는 의미다.

실용적 사례로 보면:

  • 대형 코드베이스(수십만 줄) 전체를 컨텍스트에 올려두고 분석
  • 수백 개의 법적 문서를 동시에 참조하며 계약서 검토
  • 수개월치 회의 기록을 한 번에 요약 및 분석
  • 긴 영상의 트랜스크립트 전체를 처리해서 인사이트 추출

기존 컨텍스트 길이를 비교하면:

모델 컨텍스트 길이 실제 활용 가능성
GPT-4o 128K 토큰 긴 문서 몇 개
Claude 3.7 200K 토큰 코드베이스 중형
Gemini 1.5 Pro 1M 토큰 긴 영상 1개
Llama 4 Scout 10M 토큰 코드베이스 대형 + 문서 수백 개

Gemini 1.5 Pro가 100만 토큰으로 주목받았는데, Llama 4 Scout는 이를 10배 초과한다.

네이티브 멀티모달 처리

텍스트·이미지·오디오·비디오를 "네이티브(native)"로 처리한다는 건 중요한 구분이다. 비네이티브 방식은 별도의 인코더로 이미지를 텍스트 표현으로 변환한 뒤 언어 모델에 넣는 구조다. 네이티브는 모달리티(modality, 정보 형태)를 처음부터 통합해서 학습하는 구조다.

네이티브 멀티모달이 중요한 이유: 텍스트 설명 없이도 이미지, 오디오, 비디오 속의 정보를 직접 추론할 수 있다. 모달리티 간 크로스 리즈닝(cross-reasoning)이 가능하다.

예시로 설명하면: "이 영상에서 화자의 표정과 목소리 톤을 분석해서 감정 상태를 평가해줘"라는 요청에 비디오와 오디오를 함께 처리해서 응답할 수 있다. 텍스트 트랜스크립트만 보는 게 아니다.

벤치마크 결과

40조 토큰 훈련 데이터를 사용한 Llama 4 Scout의 벤치마크 결과:

벤치마크 Llama 4 Scout Gemma 3 Gemini 2.0 Flash-Lite Mistral 3.1
MMLU (지식) 상위 비교 기준 유사 하위
HumanEval (코딩) 상위 유사 하위 유사
GSM8K (수학) 상위 유사 유사 하위
멀티모달 이해 상위 N/A 유사 N/A

(정확한 수치는 Meta AI 블로그에서 확인 가능)

단일 H100 GPU에서 실행 가능하다는 점도 중요하다. H100은 약 3만 달러짜리 고성능 서버 GPU지만, 엔터프라이즈 환경에서는 흔히 쓰인다. 이 말은 클라우드 API 없이도 사내 인프라에서 직접 운영(on-premise, 온프레미스)할 수 있다는 의미다.

더 넓은 그림: 오픈소스 AI가 클로즈드 모델을 따라잡는 속도

성능 격차가 좁혀지는 속도

2023년까지 오픈소스 최고 모델과 GPT-4 사이의 성능 격차는 컸다. MMLU 같은 지식 벤치마크에서 15–20%포인트 차이가 났다. 2024년 Llama 3.1 405B가 나오면서 격차가 5–10%포인트로 줄었다. 2026년 Llama 4는 많은 벤치마크에서 GPT-4o와 동등하거나 앞선다는 결과가 나오고 있다.

이 수렴이 왜 일어나는가:

  • 스케일링 법칙(scaling laws)은 오픈소스·클로즈드 모두에 동일하게 적용된다
  • 훈련 데이터와 아키텍처 개선이 오픈소스 커뮤니티에서 빠르게 공유된다
  • Meta, Mistral, Cohere 같은 회사들이 오픈소스에 막대한 투자를 한다

한편 GPT-4o나 Claude 3.7은 계속 발전하기 때문에 "따라잡았다"는 말은 정확하지 않다. 정확히는 "격차가 계속 좁혀지고 있다"는 것이다.

엔터프라이즈 AI 비용 구조의 변화

오픈소스 고성능 모델의 등장이 엔터프라이즈 AI 도입 비용을 어떻게 바꾸나.

OpenAI GPT-4o API 사용 비용: 입력 토큰 1M당 약 5달러, 출력 1M당 약 15달러. 1000만 토큰짜리 컨텍스트로 하루 100번 처리하면 하루 API 비용만 수천 달러에 달한다.

Llama 4 Scout를 온프레미스로 운영하면: H100 서버 하드웨어 비용(약 30만 달러) + 운영 인건비. 대규모 사용 시 클라우드 API보다 훨씬 경제적이다. 데이터 보안과 개인정보 보호 요건이 있는 산업(금융, 의료, 법률)에서 특히 매력적이다.

그래서 뭐가 달라지는데

개발자 관점

Llama 4 Scout가 실무에서 가져오는 변화는 세 가지다.

하나, 긴 컨텍스트가 필요한 워크플로우의 비용이 급락한다. 대형 코드베이스 리뷰, 긴 문서 분석, 복잡한 데이터 파이프라인 자동화를 오픈소스 모델로 처리할 수 있다.

둘, 멀티모달 애플리케이션 개발이 쉬워진다. OpenAI나 Google의 멀티모달 API 없이도 로컬 환경에서 텍스트, 이미지, 오디오를 처리하는 앱을 만들 수 있다.

셋, 파인튜닝(fine-tuning, 사전 학습된 모델을 특정 작업에 맞게 추가 학습)의 문이 넓어진다. 오픈 웨이트 모델이라 자사 데이터로 미세 조정해서 특화 모델을 만들 수 있다.

기업 도입 관점

온프레미스 Llama 4 운영은 클라우드 API 대비 세 가지 이점이 있다.

비용 절감, 특히 대규모 사용 시. 데이터 보안 — 외부 API로 민감한 데이터를 보내지 않아도 된다. 커스터마이제이션 — 자사 데이터와 요구사항에 맞게 모델을 조정할 수 있다.

단점은 운영 부담이다. H100 인프라 관리, 모델 업데이트, 성능 모니터링을 직접 해야 한다. 이 부담을 줄이기 위해 AWS, Azure, GCP가 모두 관리형 Llama 4 서비스를 제공할 것으로 예상된다.

오픈소스 고성능 모델이 클라우드 API와 동등한 수준이 되면, AI 인프라 경쟁은 모델 자체가 아니라 서비스 품질과 통합 편의성으로 옮겨간다.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.