인구 천만 나라가 자기 언어 AI를 직접 만들었다는 이야기
2026년 7월 1일, 포르투갈이 좀 조용하지만 꽤 묵직한 걸 발표했어. 이름은 '아말리아(AMALIA)'. 포르투갈어를 위해, 포르투갈 사람 손으로 처음부터 다듬어 만든 대규모 언어모델(LLM)이야. 미국 프런티어 랩이 수십억 달러 써서 만든 거대 모델이 아니라, 인구 천만 남짓한 나라가 국가 예산 550만 유로로 만든 모델이라는 게 핵심이지.
숫자만 보면 좀 귀엽게 느껴질 수도 있어. OpenAI나 구글이 모델 하나 훈련하는 데 태우는 돈에 비하면 550만 유로는 반올림 오차 수준이니까. 그런데 이 발표가 유럽 전역에서 주목받은 이유는 돈의 크기가 아니라 방향이야. "우리는 우리 언어를 미국 회사 서버에 맡기지 않겠다"는 선언이거든.
이름부터 상징적이야. 아말리아는 포르투갈의 국민 파두 가수 아말리아 호드리게스(Amália Rodrigues)에서 따왔어. 동시에 'Automatic Multimodal Language Assistant with Artificial Intelligence'의 약자이기도 하고. 자기 언어의 정서를 대표하는 목소리 이름을 AI에 붙였다는 거, 이게 그냥 마케팅이 아니라 이 프로젝트의 성격을 그대로 보여줘. 언어와 문화의 주권을 지키겠다는 거지.
그럼 이게 실제로 뭘 바꾸는지, 누가 만들었고 누가 이득을 보는지, 그리고 작은 나라가 거대 AI 시대에 살아남는 전략으로서 얼마나 현실적인지 하나씩 뜯어보자.
누가 만들었나 — 정부, 통신연구소, 그리고 EuroLLM이라는 뿌리
먼저 판을 깐 건 포르투갈 정부야. 돈줄이 '회복·회복력 계획(PRR, Plano de Recuperação e Resiliência)'에서 나왔거든. 이건 코로나 이후 EU가 회원국들한테 뿌린 대규모 회복기금인데, 포르투갈은 그 돈의 일부를 도로나 건물이 아니라 '자국어 AI 인프라'에 넣기로 결정한 거야. 초기 투자 550만 유로, 자금은 2027년 말까지 확보돼 있어. 국가가 언어 능력을 도로·전기 같은 공공 인프라로 본다는 발상 자체가 이 프로젝트의 출발점이야.
실제 개발은 대학·연구소 컨소시엄이 맡았어. 통신연구소(Instituto de Telecomunicações, IT)와 리스본공대(Instituto Superior Técnico, IST)를 중심으로, 노바 리스본 대학(NOVA University Lisbon), 코임브라·포르투·미뉴 대학, 그리고 과학기술재단(FCT)이 참여했지. 여기에 베이라 인테리오르·에보라 대학, 리스본공학원(ISEL) 같은 곳도 협력으로 붙었고. 번역 AI 스타트업 우나벨(Unbabel)도 이름을 올렸어. 연구자·학생만 60명이 넘게 달라붙은 진짜 국가 프로젝트야.
프로젝트를 총괄한 건 IST 교수이자 우나벨 출신인 안드레 마르틴스(André Martins). 그는 "아말리아는 AI 분야에서 유럽의 전략적 자율성에 기여하는 걸 목표로 한다"고 못 박았어. 유럽과 미국·중국 사이 기술 격차를 줄이자는 거지. 이게 그냥 학술 프로젝트가 아니라 국가 전략 문서의 언어로 설명된다는 게 포인트야.
그런데 이 모든 게 가능했던 진짜 이유는 따로 있어. 바로 EuroLLM이라는 유럽 공용 오픈소스 뿌리야. 아말리아는 맨땅에서 시작하지 않았어. EuroLLM-9B라는, 유럽이 공동으로 만든 90억 파라미터 오픈모델 위에 올라탄 거거든. 언어모델의 가장 비싸고 무거운 부분(대규모 사전학습)은 이미 유럽 공동 자산으로 만들어져 있었고, 포르투갈은 거기에 자국어 데이터를 얹어 '확장·특화'하는 부분만 담당한 거야. 550만 유로라는 예산이 말이 되는 이유가 바로 이거야. 바퀴를 다시 발명하지 않고, 유럽이 함께 만든 바퀴 위에 자기 마차를 얹은 거지.
이 구조가 왜 중요하냐면, 앞으로 작은 나라들이 자국어 AI를 만드는 표준 레시피가 될 수 있거든. 프런티어 모델을 통째로 훈련하는 건 소수 초강대국·초거대 기업만 할 수 있어. 하지만 공용 베이스 위에 자국어를 얹는 건 중견국도 감당할 수 있어. 아말리아는 그 레시피의 첫 성공 사례로 제시된 거야.
실제로 무슨 일이 벌어졌나 — 가중치·데이터·코드까지 통째로 오픈
핵심부터 말하면, 아말리아는 완전 오픈소스야. 요즘 "오픈"이라는 말이 워낙 흔해져서 무뎌졌는데, 아말리아는 진짜배기에 가까워. 모델 가중치, 학습 데이터셋, 그리고 소스코드까지 세 가지 전부를 아파치 2.0 라이선스로 풀었어. 허깅페이스에 amalia-llm/AMALIA-9B-0626-SFT와 AMALIA-9B-0626-DPO 두 버전이 올라와 있고, 누구나 뜯어보고, 고치고, 자기 서버에 돌릴 수 있어. 상업적 이용도 막지 않았지.
기술적으로 보면 EuroLLM-9B를 유럽 포르투갈어로 이어서 사전학습(continued pretraining)해서 지식을 보강하고, 문맥 길이를 32k 토큰까지 늘렸어. 여기에 이미지+텍스트를 같이 다루는 멀티모달 능력, 강화된 안전·평가 시스템을 붙였고. 학습 데이터는 포르투갈 웹 아카이브 Arquivo.pt, 공공 도서, EuroLLM 사전학습 데이터, 긴 문맥용 Stack-v2 샘플, 그리고 문맥 유지력을 시험하는 합성 '건초더미 속 바늘' 데이터까지 섞었어. 훈련은 바르셀로나의 마레노스트룸5(MareNostrum5)와 미뉴의 데우칼리온(DEUCALION) 슈퍼컴퓨터에서 NVIDIA H100 64장으로 돌렸어. 지도학습(SFT) 단계가 76시간·1만4천 스텝, 선호도 정렬(DPO) 단계가 12시간. 이 정도면 프런티어 랩 기준으로는 하룻밤 사이에 끝나는 규모지만, 목표 자체가 달라. 세계 최강 모델이 아니라 '포르투갈어를 가장 잘 이해하는 모델'이거든.
용도도 굉장히 현실적이야. 범용 챗봇을 또 하나 만들려는 게 아니라, 포르투갈이 실제로 필요한 자리에 꽂겠다는 거야. 정부가 밝힌 용도는 네 가지 — 교육용 AI 조교, 박물관·기념물 관광 안내, 시민 행정 서비스(전자정부) 디지털 비서, 그리고 포르투갈 해군을 위한 의사결정 지원이야. 마지막 해군 얘기가 좀 튀는데, 이게 바로 '주권 AI'의 핵심을 보여줘. 안보나 국방 영역의 판단을 외국 회사 API에 태울 수는 없잖아. 그러니까 내가 통제하는 모델이 필요한 거지.
정리하면 이런 그림이야.
| 항목 | 내용 |
|---|---|
| 베이스 모델 | EuroLLM-9B (유럽 공용 오픈모델, 90억 파라미터) 위에 유럽 포르투갈어로 이어서 사전학습 |
| 학습 데이터 | Arquivo.pt 웹 아카이브, 공공 도서, EuroLLM 사전학습 데이터, Stack-v2 장문맥, 합성 데이터 (문맥 32k 토큰) |
| 인프라 | MareNostrum5·DEUCALION 슈퍼컴, NVIDIA H100 64장 (SFT 76h / DPO 12h) |
| 자금 | 포르투갈 회복·회복력 계획(PRR) 550만 유로, 2027년 말까지 확보 |
| 라이선스 | Apache 2.0 — 가중치·데이터·코드 전부 공개, 상업 이용 허용 |
| 목표 용도 | 교육 조교, 관광 안내, 전자정부 시민 비서, 해군 의사결정 지원 |
이 표에서 진짜 눈에 띄는 건 라이선스 줄이야. 대부분의 '오픈' 모델이 가중치만 던져주고 데이터나 코드는 숨기는데, 아말리아는 세 개 다 열었어. 투명성이 곧 신뢰이고, 신뢰가 곧 공공 서비스에 쓸 수 있는 근거가 된다는 논리야.
각자 뭘 얻나 — 정부·연구자·EU가 나눠 갖는 몫
먼저 포르투갈 정부가 얻는 건 '통제권'이야. 시민 행정, 교육, 국방 같은 민감한 영역에 AI를 넣을 때, 그 모델이 미국 회사 클라우드에 있으면 데이터도 정책도 남의 손에 달려 있게 돼. 가격을 올려도, 서비스를 끊어도, 정책이 바뀌어도 끌려갈 수밖에 없지. 자기 모델을 가지면 그 종속에서 벗어나. 550만 유로는 그 독립성을 사는 값이라고 보면 돼. 프런티어 모델 API에 매년 지불할 돈에 비하면, 한 번 만들어 두고두고 쓰는 국산 모델이 장기적으로 더 쌀 수도 있고.
연구자와 대학이 얻는 건 '역량'이야. 60명 넘는 연구자·학생이 실제로 9B급 모델을 확장·정렬·평가하는 전 과정을 손으로 돌려봤어. 이 경험은 논문 몇 편보다 훨씬 값진 국가 자산이야. 다음 모델, 그다음 모델을 만들 사람들이 지금 길러지고 있는 거니까. 슈퍼컴 활용 노하우, 데이터 큐레이션, 안전성 평가까지 국내에 축적되는 거지.
포르투갈어를 쓰는 산업계와 스타트업도 이득이야. 아파치 2.0으로 풀렸으니 누구나 이걸 기반으로 자기 제품을 만들 수 있어. 콜센터 자동화, 법률 문서 요약, 의료 상담 보조 같은 걸 만들 때 미국 모델의 어색한 포르투갈어와 씨름하는 대신, 유럽 포르투갈어를 제대로 이해하는 국산 베이스에서 출발할 수 있는 거야. 브라질 포르투갈어와 유럽 포르투갈어는 은근히 다른데, 대부분의 글로벌 모델은 브라질 쪽으로 편향돼 있거든. 이 틈을 정확히 노린 거야.
마지막으로 EU 전체가 얻는 게 있어. 아말리아는 EuroLLM이라는 공용 뿌리 위에서 자랐고, 그 위에서 얻은 개선과 데이터를 다시 오픈으로 돌려줬어. 이건 유럽 여러 나라가 각자 자국어 모델을 만들면서도 공용 베이스를 함께 키우는 선순환의 첫 증거야. 스페인이, 그리스가, 폴란드가 같은 방식으로 자국어 모델을 만들면 EuroLLM 생태계 전체가 두꺼워져. 미국·중국의 폐쇄형 제국에 맞서는 유럽식 답이 "각자 만들되 뿌리는 공유한다"는 거고, 아말리아가 그 모델 케이스야.
예전에도 이런 시도가 있었어 — 국가 언어모델의 명암
사실 '우리 언어 우리 손으로' 프로젝트가 처음은 아니야. 성공도 있고 실패도 있어서, 아말리아를 냉정하게 보려면 그 역사를 알아야 해.
성공 쪽에서 자주 언급되는 건 아랍에미리트(UAE)의 팰컨(Falcon)이야. 국부를 밀어 넣어 오픈 가중치 모델을 냈고, 한때 오픈모델 리더보드 상위권을 찍으면서 "석유 나라가 AI도 한다"는 인상을 남겼지. 핀란드가 주도한 유럽 다국어 모델 포로(Poro), 아랍어에 특화한 자이스(Jais) 같은 것도 자국어·지역어 AI가 실제로 쓸 만하게 나올 수 있다는 걸 보여줬어. 특히 자이스는 아랍어권에서 실제 서비스로 이어지면서 '지역 특화 모델의 상업적 가능성'을 증명했고.
실패, 혹은 기대에 못 미친 쪽도 많아. 국가가 거창하게 발표만 하고 실제 배포·유지보수로 이어지지 않아 조용히 사라진 프로젝트가 꽤 있어. 문제는 보통 발표 이후에 터져. 모델을 한 번 훈련하는 것보다, 계속 업데이트하고 안전성을 관리하고 실제 서비스에 붙이는 '운영'이 훨씬 어렵고 돈이 많이 들거든. 550만 유로가 2027년 말까지라는 아말리아의 자금 구조를 보면, 딱 이 지점이 관건이 될 거야. 첫 모델을 냈다는 것과, 그 모델이 5년 뒤에도 살아 있다는 건 완전히 다른 얘기니까.
또 하나 교훈은 '베이스 선택'이야. 과거 국가 모델 중 상당수가 맨땅에서 사전학습을 시도하다가 예산과 인력에서 무너졌어. 아말리아가 EuroLLM 위에 올라탄 건 이 실패를 정확히 피해 간 설계야. 무거운 건 공유 자산에 맡기고, 자기 예산은 진짜 차별화되는 부분(자국어 데이터·정렬·평가)에만 쓴 거지. 이 판단이 아말리아를 '또 하나의 발표용 모델'과 '실제로 굴러가는 모델' 사이에서 후자 쪽으로 밀어줄 가능성이 커.
경쟁자이자 동료들 — 다른 주권 AI와 유럽 오픈모델들
아말리아를 둘러싼 풍경을 넓혀 보면, 지금 세계는 '주권 AI(sovereign AI)' 경쟁에 한창이야. 각 나라·지역이 남의 모델에 의존하지 않고 자기 걸 갖겠다는 흐름인데, 아말리아는 그 유럽판 조각 중 하나야.
가장 가까운 동료는 당연히 EuroLLM과 그걸 둘러싼 오픈 유럽 진영이야. 여기에 EU 차원의 오픈유로LLM(OpenEuroLLM) 얼라이언스가 유럽 여러 언어를 아우르는 공용 모델을 밀고 있어. 아말리아는 이 진영의 '국가 특화 지점'을 보여주는 셈이야. 프랑스의 미스트랄(Mistral)은 좀 결이 달라 — 상업 스타트업이 유럽발 프런티어급 모델로 미국 랩과 직접 붙는 노선이거든. 즉 유럽 안에도 두 갈래가 있어. 하나는 미스트랄처럼 '유럽에서도 세계 최강 상업 모델을 낸다'는 노선, 다른 하나는 아말리아처럼 '공용 오픈 베이스 위에 각국이 자국어를 얹는다'는 노선. 둘은 경쟁이라기보다 서로 보완해.
유럽 밖으로 나가면 스케일이 다른 플레이어들이 있어. UAE의 팰컨, 사우디의 대규모 아랍어 AI 투자, 인도의 여러 자국어 모델 프로젝트, 그리고 중국의 오픈모델 물량 공세까지. 이들은 대부분 아말리아보다 훨씬 큰 돈을 쓰고 있어. 그래서 아말리아를 이들과 파라미터 수나 벤치마크 점수로 나란히 비교하면 초라해 보일 수 있어. 하지만 비교의 축이 틀렸어. 아말리아의 경쟁 목표는 '세계 최강'이 아니라 '포르투갈어를 가장 잘하고, 포르투갈이 완전히 통제하는 모델'이거든.
흥미로운 대비도 있어. 같은 시기 포르투갈엔 데이터센터 투자도 들어오고 있어 — Nscale이 약 6억9500만 유로 규모의 데이터센터를 짓는다는 얘기가 나왔지. 550만 유로짜리 모델과 6억9500만 유로짜리 데이터센터를 나란히 놓고 보면, 지금 AI 주권 경쟁이 얼마나 여러 층위에서 벌어지는지 감이 와. 계산 인프라(데이터센터)는 돈으로 사고, 언어 능력(모델)은 자국 데이터와 연구로 만든다 — 이 두 개를 다 확보해야 진짜 독립인 거지.
그래서 아말리아를 '유럽에서 제일 센 모델'로 읽으면 안 돼. 대신 '작은 나라가 감당 가능한 예산으로 주권을 확보하는 방법론'의 레퍼런스로 읽어야 맞아. 성공한다면 이 방법론 자체가 다른 중견국·소국들에게 복사·붙여넣기 될 수 있는 청사진이 돼.
그래서 뭐가 달라지나 — 시민·개발자·소국·오픈소스 진영별로
포르투갈 시민 입장에선 당장 극적인 변화는 없을 거야. 아말리아는 소비자용 챗봇이 아니라 정부·기관이 그 위에 서비스를 얹으라고 만든 '플랫폼'이거든. 하지만 시간이 지나면 체감돼. 관공서 민원 봇이 어색한 번역투 대신 진짜 포르투갈어로 대답하고, 박물관 안내가 자국 문화 맥락을 이해하고, 학교 조교 AI가 유럽 포르투갈어 교과 과정에 맞게 굴러가는 식으로. 그리고 그 과정에서 내 개인정보와 행정 데이터가 미국 서버가 아니라 국내에서 처리된다는 것 — 이게 조용하지만 큰 차이야.
개발자 입장에선 이게 선물 상자야. 아파치 2.0으로 가중치·데이터·코드가 다 열려 있으니까, 포르투갈어 제품을 만들려는 개발자는 이제 출발선이 달라졌어. 파인튜닝 재료가 공개돼 있고, 자기 서버(온프레미스)에 통째로 돌릴 수 있어서 API 비용·데이터 유출 걱정 없이 실험할 수 있어. 특히 규제가 빡센 의료·법률·금융 쪽에서 '데이터가 밖으로 안 나간다'는 건 결정적인 장점이야.
다른 작은 나라들 입장에선 아말리아가 일종의 증명이야. "우리도 프런티어 랩 없이, 감당 가능한 예산으로 자국어 AI를 가질 수 있다"는 걸 실제 사례로 보여줬거든. 레시피도 명확해 — 공용 오픈 베이스(EuroLLM 같은) 고르기, 자국어·문화 데이터 큐레이션, 공공 슈퍼컴 활용, 예산은 차별화 지점에만 집중. 그리스, 헝가리, 발트 국가들처럼 인구가 적어 글로벌 모델의 관심 밖에 있는 언어권일수록 이 레시피가 절실하고, 아말리아는 그들에게 복사할 청사진을 줬어.
오픈소스 진영 입장에선 상징적 승리야. "완전 오픈(가중치+데이터+코드)이 공공 자금 프로젝트에서 현실적으로 가능하다"는 걸 국가 규모로 보여줬으니까. 게다가 EuroLLM에서 받아 개선분을 다시 오픈으로 돌려주는 구조는, 오픈소스가 단순 '무료 배포'가 아니라 '공동 자산을 함께 키우는 순환'이라는 이상을 국가 차원에서 실천한 사례야. 이게 잘 굴러가면, 폐쇄형 프런티어 모델만이 답이라는 통념에 계속 균열을 낼 거야.
물론 아직 물음표도 많아. 2027년 이후 자금은? 첫 모델의 실제 성능이 상용 서비스를 감당할 수준일까? 유지·업데이트를 지속할 인력과 예산이 있을까? 이 질문들에 대한 답은 발표 자료가 아니라 앞으로 몇 년의 운영이 말해줄 거야. 그래도 방향만큼은 분명해. 거대 자본만이 AI를 만들 수 있다는 시대에, 작은 나라가 '함께 만든 뿌리 + 자기 언어 데이터'라는 다른 길을 실제로 걸어 보였다는 것. 그것만으로도 아말리아는 기록할 가치가 있어.
🥄 남은 궁금증 세 가지
— 550만 유로면 진짜 싼 거야? 모델 하나 만드는 데? 프런티어 모델 기준으론 말도 안 되게 싸. GPT급 모델은 훈련에만 수천만~수억 달러가 들거든. 아말리아가 이 예산으로 가능했던 건 처음부터 다 만들지 않았기 때문이야. 유럽 공용 EuroLLM-9B라는 무거운 베이스를 공짜로 물려받고, 거기에 자국어 데이터를 얹는 '확장·특화'만 했지. 실제 훈련도 H100 64장으로 SFT 76시간, DPO 12시간이면 끝났어. 다만 진짜 비용은 훈련이 아니라 '그다음'이야 — 유지·업데이트·안전 관리·실서비스 연동. 550만 유로가 2027년 말까지라는 걸 보면, 이 지속 비용을 어떻게 대느냐가 성패를 가를 거야.
— 브라질 포르투갈어랑은 상관없는 거야? 아말리아는 대놓고 '유럽 포르투갈어(European Portuguese)' 특화 모델이야. 이게 핵심 차별점이거든. 세계 포르투갈어 사용자 대부분은 브라질에 있고, 그래서 글로벌 상용 모델은 대부분 브라질식 어휘·문법에 편향돼 있어. 유럽 포르투갈어는 발음도 철자도 표현도 은근히 달라서, 리스본 사람이 쓰면 어색함이 느껴질 때가 많아. 아말리아는 정확히 그 틈을 노렸어. 재미있는 건 발표를 브라질에서 열린 PROPOR 학회에서 했다는 거야 — 언어는 나눠 특화하되 학술 공동체는 함께 간다는 거지.
— 해군 의사결정 지원? 그게 왜 언어모델 용도에 들어가 있어? 좀 튀어 보이지만 바로 그게 '주권 AI'의 본질을 보여주는 대목이야. 국방·안보 영역의 판단 보조를 외국 회사 API에 태울 수는 없잖아. 데이터가 어디로 흘러가는지, 모델이 언제 바뀌는지, 서비스가 끊길지 안 끊길지를 남이 쥐고 있으면 안 되니까. 내가 가중치까지 통제하는 완전 오픈 모델이라면 폐쇄망에 넣어 국내에서만 돌릴 수 있어. 교육·관광 같은 부드러운 용도 사이에 해군이 끼어 있는 게 어색해 보여도, 사실 이 프로젝트가 '왜 굳이 자국 모델이어야 하는가'에 대한 가장 선명한 답이야.
참고 자료
- AMALIA — Instituto de Telecomunicações 공식 발표
- Portugal open-sources Amália, its first national AI model — The Next Web
- Portugal launches its sovereign AI model "Amália" — CyberNews
- amalia-llm/AMALIA-9B-0626-SFT — Hugging Face 모델 카드
- EuroLLM-9B — Hugging Face (베이스 모델)
수치는 발표 시점 기준이라 바뀔 수 있어.


