Google LiteRT-LM – 스마트폰에서 LLM 돌리는 시대가 본격적으로 왔다
Google이 LiteRT-LM을 오픈소스로 공개했다. Android, iOS, 라즈베리 파이까지 지원하는 엣지 디바이스 LLM 추론 프레임워크로, Gemma 4 E2B를 스마트폰에서 구동할 수 있다.

라즈베리 파이에서 LLM이 돌아간다
"AI는 클라우드에서만 돌릴 수 있다"는 말은 이제 옛말이야.
Google이 LiteRT-LM이라는 오픈소스 프레임워크를 공개했어. 이게 뭐냐면, 스마트폰, 태블릿, 노트북, 심지어 라즈베리 파이 같은 소형 디바이스에서 LLM(대규모 언어 모델)을 직접 실행할 수 있게 해주는 추론 엔진이야.
이미 Google 내부에서는 실전 투입 중이야. Chrome 브라우저의 Gemini Nano, Chromebook Plus, Pixel Watch – 이 제품들에서 AI가 로컬로 돌아가는 건 전부 LiteRT-LM 덕분이었어. 그걸 이제 개발자 누구나 쓸 수 있도록 오픈한 거야.
이걸 이해하려면 – 왜 "엣지 AI"가 중요한가
지금까지 AI를 쓰려면 거의 항상 클라우드가 필요했어. 네가 ChatGPT에 질문하면, 그 질문은 인터넷을 타고 데이터센터에 있는 GPU 클러스터까지 갔다가 답변이 돌아오는 구조야. 이 과정에서 두 가지 문제가 생겨.
하나는 프라이버시야. 내 대화, 내 문서, 내 코드가 전부 외부 서버를 거쳐야 해. 다른 하나는 지연 시간이야. 아무리 빨라도 네트워크 왕복 시간이 있으니까.
"엣지 AI"는 이 두 문제를 동시에 해결해. 모델이 내 디바이스에서 직접 돌아가니까 데이터가 밖으로 나갈 일이 없고, 응답도 즉각적이야. 문제는 지금까지 엣지에서 LLM을 돌리는 게 엄청나게 어려웠다는 거야. 모델이 너무 크고, 메모리를 너무 많이 잡아먹으니까.
Google은 이 문제를 단계적으로 풀어왔어.
| 시기 | 프로젝트 | 역할 |
|---|---|---|
| 2017 | TensorFlow Lite | 모바일 머신러닝 추론 |
| 2023 | MediaPipe LLM | 모바일 LLM 초기 실험 |
| 2024 | Gemini Nano | 온디바이스 AI 모델 (Pixel) |
| 2025 | LiteRT (리브랜딩) | TF Lite 후속, 범용 온디바이스 AI |
| 2026.04 | LiteRT-LM | LLM 특화 추론 엔진 (오픈소스) |
LiteRT-LM은 이 긴 여정의 최신 결과물이야. 그리고 이번에 Gemma 4와 동시에 공개되면서, "모델 + 런타임"을 한 번에 제공하는 풀 스택 전략이 완성됐어.
핵심 내용 해부 – LiteRT-LM이 할 수 있는 것
지원 플랫폼: 거의 모든 곳
LiteRT-LM의 가장 큰 강점은 크로스 플랫폼 지원이야. Android, iOS, 웹 브라우저, 데스크탑(Windows/Mac/Linux), IoT 디바이스(라즈베리 파이)까지 전부 커버해.
개발자 입장에서 이게 왜 중요하냐면, 하나의 프레임워크를 배우면 어디서든 LLM을 배포할 수 있다는 뜻이거든. 플랫폼마다 다른 추론 엔진을 쓸 필요가 없어져.
하드웨어 가속: GPU + NPU
스마트폰에는 요즘 NPU(Neural Processing Unit, 신경망 전용 칩)가 들어가 있어. 삼성 엑시노스, 퀄컴 스냅드래곤, 구글 Tensor 칩에 모두 NPU가 있는데, LiteRT-LM은 이 NPU를 직접 활용해서 추론 속도를 끌어올려.
GPU 가속도 당연히 지원해. 디바이스에 있는 하드웨어를 최대한 활용해서 속도와 전력 효율을 동시에 잡는 구조야.
지원 모델
| 모델 | 크기 | 특징 |
|---|---|---|
| Gemma 4 E2B | 2.3B 파라미터 | 스마트폰 최적화 |
| Gemma 4 E4B | 4.5B 파라미터 | 태블릿/고성능 폰 |
| Gemma 4 12B | 12B 파라미터 | 데스크탑급 |
| Llama | 다양한 사이즈 | Meta 오픈소스 |
| Phi-4 | 다양한 사이즈 | Microsoft 소형 모델 |
| Qwen | 다양한 사이즈 | Alibaba 오픈소스 |
에이전트 기능: 함수 호출까지
단순히 텍스트를 생성하는 것 이상이야. LiteRT-LM은 도구 사용(Tool Use)과 함수 호출(Function Calling)을 지원해. 쉽게 말하면, 스마트폰에서 돌아가는 AI 에이전트가 날씨 API를 호출하거나, 캘린더를 확인하거나, 파일을 읽는 등의 동작을 할 수 있다는 뜻이야.
멀티모달도 지원해. 텍스트뿐 아니라 이미지와 오디오 입력도 처리할 수 있어서, 카메라로 찍은 사진을 분석하거나 음성 명령을 이해하는 앱을 만들 수 있어.
더 넓은 그림 – Google의 "AI 민주화" 전략
LiteRT-LM만 떼어놓고 보면 그냥 추론 엔진 하나야. 하지만 4월 2일에 공개된 Gemma 4와 묶어서 보면 그림이 완전히 달라져.
Gemma 4의 E2B(2.3B 파라미터) 모델은 스마트폰에서 돌아가도록 설계됐어. LiteRT-LM은 그 모델을 실제로 스마트폰에서 구동하는 엔진이고. 모델과 런타임을 한 세트로 제공하는 거야. Apple이 하드웨어와 소프트웨어를 묶어서 파는 것처럼, Google은 모델과 런타임을 묶어서 오픈소스로 뿌리는 전략을 택한 거지.
이 전략의 목표는 분명해. "AI가 필요하면 Google 생태계로 와라." Gemma 모델을 쓰면 자연스럽게 LiteRT-LM을 쓰게 되고, LiteRT-LM을 쓰면 Google AI Edge 생태계에 발을 담그게 돼.
그래서 뭐가 달라지는데
앱 개발자에게 LiteRT-LM은 게임 체인저야.
지금까지 앱에 AI를 넣으려면 OpenAI나 Anthropic API를 호출해야 했어. 사용량에 따라 비용이 나가고, 인터넷이 끊기면 작동 안 하고, 개인 정보가 서버로 넘어가는 문제가 있었지.
LiteRT-LM + Gemma 4 조합은 이 세 가지를 한 번에 해결해. 비용은 0 (모델이 무료, 런타임이 무료), 오프라인에서도 작동, 데이터는 디바이스를 떠나지 않아.
물론 제약도 있어. 스마트폰에서 돌릴 수 있는 2.3B 모델의 성능은 클라우드의 수백B 모델에 비하면 제한적이야. 복잡한 코딩이나 긴 문서 분석 같은 무거운 작업은 여전히 클라우드가 나아. 하지만 문법 교정, 요약, 간단한 Q&A, 번역 같은 일상적인 AI 기능은 이제 완전히 오프라인으로 옮길 수 있게 됐어.
2026년의 트렌드가 뚜렷해지고 있어. "클라우드 vs 엣지"가 아니라 "클라우드 + 엣지"의 하이브리드. 무거운 작업은 클라우드에서, 일상적인 AI는 디바이스에서. LiteRT-LM은 그 "엣지" 쪽 인프라의 핵심 조각이야.
참고 자료
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.


