네이버가 공동으로 이끌었어 — TwelveLabs, 영상 AI에 1억 달러 베팅

2026년 7월 1일, 영상 이해 AI 스타트업 TwelveLabs가 시리즈 B로 1억 달러를 마감했다는 소식이 떴어. 근데 이게 그냥 "또 하나의 AI 스타트업 펀딩" 뉴스가 아니야. 이 라운드를 NEA랑 나란히 공동 주도(co-lead)한 게 바로 네이버 벤처스거든. 미국 실리콘밸리 VC가 리드하는 라운드에 한국 기업의 벤처캐피털 팔이 공동 리드로 이름을 올린 거야. 그것도 "영상을 이해하는 AI"라는, 지금 빅테크들이 제일 눈독 들이는 영역에서.

그리고 여기에 한국투자파트너스(KIP)까지 참여자로 들어왔어. 아마존, 래디컬 벤처스, 인덱스 벤처스, 콰드리유 캐피털, 레드불 벤처스 같은 이름들 사이에 네이버와 KIP가 나란히 서 있는 그림인 거야. 이 라운드가 궁금한 이유는 딱 하나야. 미국에서 태어나 실리콘밸리 자본을 흡수하고 있는 이 스타트업이, 사실은 한국과 뿌리부터 얽혀 있다는 것. 서울 오피스가 이미 크고, 창업자 라인에 한국인 색채가 뚜렷하고, 이번엔 그 연결고리가 자본으로도 증명된 거지.

'영상 AI'라고 하면 막연하게 들릴 수도 있는데, 쉽게 말하면 이런 거야. 지금까지 AI는 텍스트는 잘 읽고, 이미지도 어느 정도 보는데, '영상'은 진짜 어려워했어. 몇 시간짜리 CCTV 영상에서 특정 사건을 찾거나, 축구 경기 하이라이트에서 결정적 장면만 뽑아내거나, 광고 영상 수만 개 중에 브랜드 로고가 나온 장면만 골라내는 일. 이게 사람이 하면 며칠씩 걸리는 노가다인데, TwelveLabs가 하려는 게 바로 이걸 AI로 자동화하는 거야. 그리고 이번 펀딩으로 이 회사가 "영상 이해"를 넘어서 "영상판 슈퍼인텔리전스"를 만들겠다고 선언한 거고.

등장인물

주인공은 TwelveLabs야. 영상을 이해하는 AI 모델을 만드는 회사인데, 이번 발표에서 스스로를 정의하는 방식이 흥미로워. 단순히 "영상 검색 툴"이 아니라 "영상을 위한 에이전틱 인텔리전스 시스템(agentic intelligence system for video)"을 만들겠다는 거야. 지각(perception), 지식(knowledge), 추론(reasoning)을 하나의 아키텍처 안에 통합하겠다는 얘기지. 말이 좀 어렵게 들리지만, 풀어보면 "영상을 보고, 그 안의 맥락을 이해하고, 그걸 바탕으로 판단까지 내리는 AI"를 만들겠다는 야심이야.

이 라운드를 공동으로 이끈 두 곳이 NEA랑 네이버 벤처스야. NEA(New Enterprise Associates)는 미국의 초대형 VC고, 자율주행부터 바이오테크까지 굵직한 딥테크 베팅을 오래 해온 곳이야. 그리고 네이버 벤처스는 이름 그대로 네이버의 벤처캐피털 조직이지. 한국 최대 검색·플랫폼 기업이 자기 자본을 태워서 미국 영상 AI 스타트업의 시리즈 B를 공동으로 리드했다는 게 이번 소식의 핵심 포인트야.

참여자 명단도 화려해. 아마존이 들어왔다는 건, 클라우드·이커머스·콘텐츠 사업 전방위에서 영상 데이터를 다루는 빅테크가 TwelveLabs의 기술력을 인정했다는 신호로 읽혀. 래디컬 벤처스는 AI 전문 VC로 이름값이 있고, 인덱스 벤처스랑 콰드리유 캐피털은 글로벌 무대에서 활동하는 투자사들이야. 그리고 좀 특이한 이름 하나, 레드불 벤처스. 스포츠·엔터테인먼트 콘텐츠를 많이 다루는 기업의 투자 팔인데, 이게 나중에 나올 '스포츠' 버티컬 수요랑 은근히 맞아떨어져.

한국 쪽 인물로는 한국투자파트너스(KIP)가 있어. 국내 대표 VC 중 하나로, 스타트업 생태계에서 굵직한 트랙 레코드를 쌓아온 곳이야. 이번 라운드에서 네이버 벤처스가 리드를 잡고 KIP가 참여자로 힘을 보태는 조합이 만들어진 거지. 그리고 이 모든 그림의 배경에는 TwelveLabs 자체가 가진 한국 뿌리가 있어. 창업진에 한국인 색채가 뚜렷하고, 서울에 이미 상당한 규모의 팀이 있다는 게 이번 투자 유치를 자연스럽게 만든 배경이야.

핵심 내용

이번에 발표된 숫자와 사실관계부터 정리해보자. 2026년 7월 1일 TwelveLabs가 시리즈 B로 1억 달러를 마감했고, NEA와 네이버 벤처스가 공동으로 라운드를 리드했어. 참여자로는 아마존, 래디컬 벤처스, 한국투자파트너스, 인덱스 벤처스, 콰드리유 캐피털, 레드불 벤처스가 이름을 올렸어. 참고로 이번 발표에서 구체적인 기업가치(밸류에이션)는 공개되지 않았어.

TwelveLabs가 이 자금을 어디에 쓸지도 명확하게 밝혔어. 핵심은 두 개의 모델을 더 발전시키는 거야. 하나는 마렝고(Marengo) 3.0이라는 영상 임베딩 모델이고, 다른 하나는 페가수스(Pegasus) 1.5라는 모델이야. 페가수스는 영상을 장면 경계(scene boundaries), 등장 개체(entities), 시간적 세그먼트(temporal segments), 의미적 맥락(semantic context) 같은 구조화된 데이터로 변환해주는 역할을 해. 회사는 이 둘을 합쳐 '비디오 인지 시스템(Video Cognition System)'이라는 개념으로 묶어서 부르고 있어.

이 표로 이번 라운드의 핵심을 한눈에 정리해볼게.

항목 내용
발표일 2026년 7월 1일
라운드 시리즈 B, 1억 달러
공동 리드 NEA, 네이버 벤처스
주요 참여자 아마존, 래디컬 벤처스, 한국투자파트너스, 인덱스 벤처스, 콰드리유 캐피털, 레드불 벤처스
핵심 모델 마렝고 3.0(영상 임베딩), 페가수스 1.5(구조화 데이터 변환)
확장 지역 샌프란시스코·서울 강화, 뉴욕·런던 신규 오피스
타깃 산업 광고, 보안, 스포츠, 자동차

자금 사용처는 모델 고도화에만 그치지 않아. '비디오 인지 시스템'을 세계에서 가장 중요한 영상 아카이브들에 확장 적용하겠다는 목표도 밝혔고, 팀 빌딩과 R&D에도 투자하겠다고 했어. 지역적으로는 이미 거점이 있는 샌프란시스코와 서울 팀을 더 키우고, 새로 뉴욕과 런던에 오피스를 연다는 계획이야. 미국 서부(샌프란시스코)와 아시아(서울)에 이어 미국 동부(뉴욕)와 유럽(런던)까지, 4개 도시를 잇는 글로벌 거점 네트워크를 짜겠다는 그림이지.

수요처로 지목된 산업군도 눈여겨볼 만해. 광고, 보안, 스포츠, 자동차. 이 네 개 버티컬이 공통으로 갖는 특징이 있어. 전부 '엄청난 양의 영상 데이터를 다루는데, 그 안에서 원하는 걸 찾아내는 게 지금까지는 사람 손이 많이 가는 작업이었다'는 거야. 광고주는 수만 개 영상 소재 중 성과 좋은 패턴을 찾아야 하고, 보안 업계는 CCTV 몇백 시간 분량에서 특정 사건을 찾아야 하고, 스포츠는 경기 영상에서 하이라이트를 뽑아야 하고, 자동차는 주행 영상 데이터를 분석해야 해. 이 네 곳 모두 TwelveLabs가 노리는 실질 수요처인 거야.

각자의 이득

먼저 TwelveLabs 입장에서 보면, 이번 라운드는 단순한 자금 확보 이상의 의미가 있어. NEA 같은 미국 최상위 VC와 네이버라는 아시아 대표 플랫폼 기업이 동시에 리드를 서준다는 건, 이 회사가 미국 시장뿐 아니라 아시아 시장에서도 확장 기반을 다졌다는 신호야. 그리고 아마존 같은 클라우드·빅테크가 투자자로 들어왔다는 건, 향후 파트너십이나 인프라 협력으로 이어질 가능성까지 열어둔 거지. 돈 이상의 '신뢰의 증명서'를 여러 장 동시에 받은 셈이야.

네이버 입장에서 보는 이득이 이번 기사의 진짜 핵심이야. 네이버는 한국에서 검색·커머스·콘텐츠·클라우드까지 손대는 종합 플랫폼 기업이잖아. 특히 숏폼, 커머스 라이브, 뉴스 영상 같은 자체 영상 콘텐츠 자산이 어마어마하게 쌓여 있어. 근데 이 영상들을 제대로 '이해'하고 검색 가능하게 만드는 기술은 자체 개발하려면 시간과 비용이 많이 들어. 네이버 벤처스가 TwelveLabs에 공동 리드로 투자했다는 건, 이 기술을 초기 단계부터 가까이서 지켜보고 향후 네이버 서비스에 접목할 수 있는 우선권을 확보했다는 의미로 읽을 수 있어. 게다가 TwelveLabs가 이미 한국 뿌리를 갖고 서울 팀을 키우고 있으니, 협업 난이도도 낮은 편이고.

한국투자파트너스 입장에서도 이건 매력적인 베팅이야. 글로벌 프론티어 AI 스타트업에, 그것도 시리즈 B라는 상대적으로 안정적인 단계에서, NEA·아마존 같은 톱티어 이름들과 어깨를 나란히 하고 들어갈 기회는 흔치 않아. 국내 VC가 해외 딥테크 스타트업에 자연스럽게 올라탈 수 있는 창구가 하나 더 열린 셈이지. 아마존 입장에서는 클라우드 인프라(AWS)와 전자상거래, 프라임 비디오 같은 콘텐츠 사업 전반에서 영상 이해 기술을 필요로 하니까, 투자와 동시에 잠재적 기술 파트너를 확보하는 전략적 포석으로 볼 수 있어.

마지막으로 광고·보안·스포츠·자동차 업계 입장에서도 이득이 있어. 지금까지 이 업계들은 영상 데이터를 수동으로 태깅하고 검색하는 데 막대한 인력을 썼거든. TwelveLabs의 기술이 성숙하면, 이 작업을 AI가 대신하면서 비용과 시간을 크게 줄일 수 있어. 특히 레드불 벤처스가 투자자로 들어온 걸 보면, 스포츠·엔터테인먼트 콘텐츠 업계가 이미 이 기술의 잠재력을 실전에서 검증하려는 움직임으로 해석할 수 있지.

과거 유사 사례 — 성공과 실패

영상 AI라는 분야 자체가 텍스트·이미지 AI보다 훨씬 늦게 무르익은 영역이야. 왜냐하면 영상은 시간축이라는 변수가 하나 더 붙거든. 이미지는 한 장의 정적인 정보지만, 영상은 시간에 따라 변하는 수백만 프레임의 연속이라 처리해야 할 데이터량이 압도적으로 많아. 그래서 그동안 '영상 검색'이라고 하면 대부분 자막이나 메타데이터에 의존하는 수준이었고, 진짜 '영상 안의 내용'을 이해하는 AI는 최근 몇 년 사이에야 실용적인 수준까지 올라온 편이야.

성공 사례로 보면, 유튜브나 틱톡 같은 플랫폼들이 콘텐츠 추천·저작권 필터링에 영상 이해 기술을 적용해서 막대한 효율을 얻은 케이스가 있어. 이들은 자체적으로 대규모 영상 AI 인프라를 구축해서, 업로드되는 영상을 실시간으로 분석하고 분류하는 시스템을 갖췄지. 이게 바로 TwelveLabs가 지향하는 '비디오 인지 시스템'의 일반화된 버전이라고 볼 수 있어. 다만 이건 자체 플랫폼 안에서 닫힌 형태로 작동하는 거고, TwelveLabs는 이걸 API·플랫폼 형태로 다양한 산업에 개방하겠다는 게 차별점이야.

실패 사례로 보면, AI 스타트업들이 '거대한 비전'을 내세웠다가 실제 제품 수요와 기술 성숙도 사이의 간극 때문에 고전한 경우가 많았어. 특히 멀티모달 AI 분야에서는 "이론적으로 가능하다"와 "실제로 기업들이 돈을 내고 쓸 만큼 정확하다" 사이의 간극이 예상보다 크게 벌어지는 경우가 잦았거든. 화려한 데모와 실사용 사이의 갭 때문에 무너진 스타트업들이 꽤 있었지. TwelveLabs가 이번에 마렝고 3.0, 페가수스 1.5처럼 구체적인 모델 버전과 스펙을 공개한 것도, 이런 "비전은 있는데 제품이 없다"는 함정을 피하려는 신호로 읽을 수 있어.

한국 기업의 해외 딥테크 투자라는 관점에서 보면, 네이버를 비롯한 국내 대기업들이 실리콘밸리 AI 스타트업에 전략적 투자를 해온 전례가 꽤 있어. 검색·클라우드·콘텐츠 기업들이 해외 AI 기술을 미리 확보해서 자사 서비스에 이식하려는 시도는 반복적으로 있어왔지. 다만 이번처럼 '공동 리드'라는 무게감 있는 포지션으로, 그것도 창업 뿌리에 한국 연결고리가 있는 회사에 들어간 사례는 상대적으로 눈에 띄는 조합이야.

경쟁자 카운터 플레이

영상 AI 시장에는 이미 여러 플레이어들이 움직이고 있어. 구글, 메타, 오픈AI 같은 빅테크들도 각자 멀티모달 모델에 영상 이해 기능을 계속 확장하고 있고, 이들은 압도적인 컴퓨팅 자원과 데이터를 갖고 있다는 게 강점이야. TwelveLabs 같은 특화 스타트업 입장에서는 이런 거대 플레이어들과 정면 승부하기보다, '영상만 파고드는 전문성'으로 차별화하는 전략을 쓸 수밖에 없어. 이번 펀딩에서 마렝고와 페가수스라는 구체적인 전용 모델 라인을 강조한 것도 이런 맥락으로 볼 수 있지.

빅테크들의 카운터플레이는 예상 가능해. 자체 멀티모달 모델(제미나이, GPT 계열 등)에 영상 이해 기능을 계속 통합해서, TwelveLabs 같은 특화 스타트업의 존재 이유를 흡수해버리려는 시도를 할 가능성이 높아. 이미 이런 흐름은 진행 중이고, 특화 스타트업들은 '범용 모델보다 특정 도메인에서 더 정확하고 빠르다'는 걸 계속 증명해야 살아남을 수 있어. TwelveLabs가 광고·보안·스포츠·자동차라는 구체적 버티컬을 타깃으로 잡은 것도, 범용 모델이 따라오기 어려운 도메인 특화 정확도로 승부하겠다는 전략으로 읽혀.

한국 안에서 보면, 카카오나 다른 국내 플랫폼 기업들도 자체 AI 역량을 키우고 있는 상황이야. 네이버가 TwelveLabs에 투자하면서 외부 기술을 확보하는 전략을 쓴 건, 모든 걸 자체 개발하기보다 검증된 외부 파트너와 협력하는 게 더 빠르고 효율적이라는 판단이 깔려 있다고 볼 수 있어. 이건 국내 빅테크 간 AI 경쟁에서 '자체 개발 vs 외부 투자·제휴'라는 두 갈래 전략이 계속 공존할 거라는 신호이기도 해.

글로벌 VC 생태계 관점에서도 이번 라운드는 흥미로운 신호야. 아마존 같은 전략적 투자자와 순수 재무적 VC가 같은 라운드에 함께 들어온다는 건, 이 분야에 대한 시장의 확신이 꽤 넓게 퍼져 있다는 뜻이거든. 경쟁 스타트업들 입장에서는 이제 '우리도 특화 영상 AI다'라는 포지셔닝만으로는 부족하고, TwelveLabs처럼 구체적인 모델 스펙과 명확한 산업 타깃, 그리고 톱티어 투자자 명단까지 갖춰야 투자 유치 경쟁에서 밀리지 않는 시대가 됐다는 걸 보여주는 사례야.

그래서 뭐가 달라지는데

한국 AI 업계 종사자 입장에서 보면, 이번 소식은 '한국 자본이 글로벌 프론티어 AI에 올라타는 방식'을 보여주는 좋은 사례야. 네이버 벤처스가 공동 리드를 잡았다는 건 단순 재무 투자를 넘어 기술 파트너십으로 이어질 여지가 크다는 뜻이고, 서울 팀이 확장된다는 건 실제 채용과 협업 기회가 국내에서도 늘어난다는 뜻이야. 영상 AI, 멀티모달 AI 쪽 커리어를 고민하는 사람이라면 TwelveLabs 서울 오피스는 눈여겨볼 만한 곳이 됐어.

네이버 생태계와 맞닿아 있는 개발자·기업 입장에서는, 향후 네이버의 검색·쇼핑·콘텐츠 서비스에 TwelveLabs 기술이 접목될 가능성을 염두에 둘 만해. 아직 구체적인 제품 통합 계획이 발표된 건 아니지만, 공동 리드 투자라는 관계의 밀도를 생각하면 자연스러운 다음 단계로 예상해볼 수 있어. 이커머스 라이브, 숏폼, 뉴스 영상 검색 같은 영역에서 '영상 안의 내용을 이해하는 검색'이 더 정교해질 가능성이 있다는 얘기지.

광고·보안·스포츠·자동차 업계에서 일하는 사람이라면, 영상 데이터를 다루는 방식 자체가 앞으로 몇 년 안에 바뀔 수 있다는 신호로 받아들이면 돼. 지금은 사람이 일일이 태깅하고 검색하던 작업이, AI가 장면·개체·맥락을 자동으로 구조화해주는 방식으로 넘어갈 거야. 당장 내일 바뀌는 건 아니지만, 이 기술이 성숙해질수록 관련 업무의 워크플로우가 재편될 가능성은 충분히 염두에 둬야 해.

스타트업 투자자나 VC 업계 종사자 입장에서는, 이번 라운드가 '한국 VC와 미국 톱티어 VC가 같은 딜에서 공동 리드로 만나는' 케이스가 늘어나고 있다는 트렌드의 일부로 볼 수 있어. 과거엔 한국 자본이 후속 라운드에 팔로우온으로 들어가는 경우가 많았다면, 이젠 시리즈 B급 라운드에서 공동 리드 포지션까지 확보하는 사례가 나오고 있다는 거야. 이게 일회성인지 흐름의 시작인지는 앞으로 몇 건의 딜을 더 지켜봐야 판단할 수 있겠지만, 최소한 하나의 유의미한 데이터 포인트가 생긴 건 분명해.

🥄 남은 궁금증 세 가지

— TwelveLabs 기업가치는 이번에 얼마로 매겨진 거야? 이번 발표 자료에는 구체적인 밸류에이션이 공개되지 않았어. 1억 달러 규모의 시리즈 B라는 것만 확인됐고, 정확한 기업가치는 알려지지 않았으니 단정하긴 일러.

— 네이버가 TwelveLabs 기술을 실제로 네이버 서비스에 바로 적용하는 거야? 아직 구체적인 제품 통합 계획이 발표된 건 없어. 공동 리드 투자라는 관계의 밀도를 보면 협업 가능성은 충분히 있어 보이지만, 실제 적용 여부와 시점은 두고 봐야 알 수 있어.

— 뉴욕·런던 오피스는 언제 문을 여는 거야? 이번 발표에서는 신규 오피스를 연다는 계획만 확인됐고, 구체적인 오픈 시점은 나오지 않았어. 채용 공고나 후속 발표를 지켜봐야 정확한 일정을 알 수 있을 것 같아.

참고 자료

숫자와 기준은 발표 시점 기준이라 바뀔 수 있어. 투자 판단은 각자의 몫!