Google LiteRT-LM – 스마트폰에서 LLM 돌리는 시대가 본격적으로 왔다

라즈베리 파이에서 LLM이 돌아간다

"AI는 클라우드에서만 돌릴 수 있다"는 말은 이제 옛말이야.

Google이 LiteRT-LM이라는 오픈소스 프레임워크를 공개했어. 이게 뭐냐면, 스마트폰, 태블릿, 노트북, 심지어 라즈베리 파이 같은 소형 디바이스에서 LLM(대규모 언어 모델)을 직접 실행할 수 있게 해주는 추론 엔진이야.

이미 Google 내부에서는 실전 투입 중이야. Chrome 브라우저의 Gemini Nano, Chromebook Plus, Pixel Watch – 이 제품들에서 AI가 로컬로 돌아가는 건 전부 LiteRT-LM 덕분이었어. 그걸 이제 개발자 누구나 쓸 수 있도록 오픈한 거야.

이걸 이해하려면 – 왜 "엣지 AI"가 중요한가

지금까지 AI를 쓰려면 거의 항상 클라우드가 필요했어. 네가 ChatGPT에 질문하면, 그 질문은 인터넷을 타고 데이터센터에 있는 GPU 클러스터까지 갔다가 답변이 돌아오는 구조야. 이 과정에서 두 가지 문제가 생겨.

하나는 프라이버시야. 내 대화, 내 문서, 내 코드가 전부 외부 서버를 거쳐야 해. 다른 하나는 지연 시간이야. 아무리 빨라도 네트워크 왕복 시간이 있으니까.

"엣지 AI"는 이 두 문제를 동시에 해결해. 모델이 내 디바이스에서 직접 돌아가니까 데이터가 밖으로 나갈 일이 없고, 응답도 즉각적이야. 문제는 지금까지 엣지에서 LLM을 돌리는 게 엄청나게 어려웠다는 거야. 모델이 너무 크고, 메모리를 너무 많이 잡아먹으니까.

Google은 이 문제를 단계적으로 풀어왔어.

시기	프로젝트	역할
2017	TensorFlow Lite	모바일 머신러닝 추론
2023	MediaPipe LLM	모바일 LLM 초기 실험
2024	Gemini Nano	온디바이스 AI 모델 (Pixel)
2025	LiteRT (리브랜딩)	TF Lite 후속, 범용 온디바이스 AI
2026.04	LiteRT-LM	LLM 특화 추론 엔진 (오픈소스)

LiteRT-LM은 이 긴 여정의 최신 결과물이야. 그리고 이번에 Gemma 4와 동시에 공개되면서, "모델 + 런타임"을 한 번에 제공하는 풀 스택 전략이 완성됐어.

핵심 내용 해부 – LiteRT-LM이 할 수 있는 것

지원 플랫폼: 거의 모든 곳

LiteRT-LM의 가장 큰 강점은 크로스 플랫폼 지원이야. Android, iOS, 웹 브라우저, 데스크탑(Windows/Mac/Linux), IoT 디바이스(라즈베리 파이)까지 전부 커버해.

개발자 입장에서 이게 왜 중요하냐면, 하나의 프레임워크를 배우면 어디서든 LLM을 배포할 수 있다는 뜻이거든. 플랫폼마다 다른 추론 엔진을 쓸 필요가 없어져.

하드웨어 가속: GPU + NPU

스마트폰에는 요즘 NPU(Neural Processing Unit, 신경망 전용 칩)가 들어가 있어. 삼성 엑시노스, 퀄컴 스냅드래곤, 구글 Tensor 칩에 모두 NPU가 있는데, LiteRT-LM은 이 NPU를 직접 활용해서 추론 속도를 끌어올려.

GPU 가속도 당연히 지원해. 디바이스에 있는 하드웨어를 최대한 활용해서 속도와 전력 효율을 동시에 잡는 구조야.

지원 모델

모델	크기	특징
Gemma 4 E2B	2.3B 파라미터	스마트폰 최적화
Gemma 4 E4B	4.5B 파라미터	태블릿/고성능 폰
Gemma 4 12B	12B 파라미터	데스크탑급
Llama	다양한 사이즈	Meta 오픈소스
Phi-4	다양한 사이즈	Microsoft 소형 모델
Qwen	다양한 사이즈	Alibaba 오픈소스

에이전트 기능: 함수 호출까지

단순히 텍스트를 생성하는 것 이상이야. LiteRT-LM은 도구 사용(Tool Use)과 함수 호출(Function Calling)을 지원해. 쉽게 말하면, 스마트폰에서 돌아가는 AI 에이전트가 날씨 API를 호출하거나, 캘린더를 확인하거나, 파일을 읽는 등의 동작을 할 수 있다는 뜻이야.

멀티모달도 지원해. 텍스트뿐 아니라 이미지와 오디오 입력도 처리할 수 있어서, 카메라로 찍은 사진을 분석하거나 음성 명령을 이해하는 앱을 만들 수 있어.

더 넓은 그림 – Google의 "AI 민주화" 전략

LiteRT-LM만 떼어놓고 보면 그냥 추론 엔진 하나야. 하지만 4월 2일에 공개된 Gemma 4와 묶어서 보면 그림이 완전히 달라져.

Gemma 4의 E2B(2.3B 파라미터) 모델은 스마트폰에서 돌아가도록 설계됐어. LiteRT-LM은 그 모델을 실제로 스마트폰에서 구동하는 엔진이고. 모델과 런타임을 한 세트로 제공하는 거야. Apple이 하드웨어와 소프트웨어를 묶어서 파는 것처럼, Google은 모델과 런타임을 묶어서 오픈소스로 뿌리는 전략을 택한 거지.

이 전략의 목표는 분명해. "AI가 필요하면 Google 생태계로 와라." Gemma 모델을 쓰면 자연스럽게 LiteRT-LM을 쓰게 되고, LiteRT-LM을 쓰면 Google AI Edge 생태계에 발을 담그게 돼.

그래서 뭐가 달라지는데

앱 개발자에게 LiteRT-LM은 게임 체인저야.

지금까지 앱에 AI를 넣으려면 OpenAI나 Anthropic API를 호출해야 했어. 사용량에 따라 비용이 나가고, 인터넷이 끊기면 작동 안 하고, 개인 정보가 서버로 넘어가는 문제가 있었지.

LiteRT-LM + Gemma 4 조합은 이 세 가지를 한 번에 해결해. 비용은 0 (모델이 무료, 런타임이 무료), 오프라인에서도 작동, 데이터는 디바이스를 떠나지 않아.

물론 제약도 있어. 스마트폰에서 돌릴 수 있는 2.3B 모델의 성능은 클라우드의 수백B 모델에 비하면 제한적이야. 복잡한 코딩이나 긴 문서 분석 같은 무거운 작업은 여전히 클라우드가 나아. 하지만 문법 교정, 요약, 간단한 Q&A, 번역 같은 일상적인 AI 기능은 이제 완전히 오프라인으로 옮길 수 있게 됐어.

2026년의 트렌드가 뚜렷해지고 있어. "클라우드 vs 엣지"가 아니라 "클라우드 + 엣지"의 하이브리드. 무거운 작업은 클라우드에서, 일상적인 AI는 디바이스에서. LiteRT-LM은 그 "엣지" 쪽 인프라의 핵심 조각이야.

Google LiteRT-LM – 스마트폰에서 LLM 돌리는 시대가 본격적으로 왔다

라즈베리 파이에서 LLM이 돌아간다

이걸 이해하려면 – 왜 "엣지 AI"가 중요한가

핵심 내용 해부 – LiteRT-LM이 할 수 있는 것

지원 플랫폼: 거의 모든 곳

하드웨어 가속: GPU + NPU

지원 모델

에이전트 기능: 함수 호출까지

더 넓은 그림 – Google의 "AI 민주화" 전략

그래서 뭐가 달라지는데

참고 자료

출처

관련 기사

42.5 ExaFLOPS, 구글이 추론 시대의 무기를 꺼냈다

Gemma 4 나왔어, 드디어 Apache 2.0으로

DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것

라즈베리 파이에서 LLM이 돌아간다

이걸 이해하려면 – 왜 "엣지 AI"가 중요한가

핵심 내용 해부 – LiteRT-LM이 할 수 있는 것

지원 플랫폼: 거의 모든 곳

하드웨어 가속: GPU + NPU

지원 모델

에이전트 기능: 함수 호출까지

더 넓은 그림 – Google의 "AI 민주화" 전략

그래서 뭐가 달라지는데

참고 자료

출처

관련 기사

42.5 ExaFLOPS, 구글이 추론 시대의 무기를 꺼냈다

Gemma 4 나왔어, 드디어 Apache 2.0으로

DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것

AI 트렌드를 앞서가세요