spoonai
ProductOpenAIEnterpriseKnowledge Management

OpenAI의 Lilli, 사내 지식 검색을 AI 에이전트로 대체하다

OpenAI가 사내에서 운영하던 검색 시스템 Lilli가 외부 기업용으로 출시됐다. Notion, Confluence를 대체할 수 있을까?

·6분 소요·
공유
OpenAI 로고
Image: OpenAI

OpenAI가 사내 지식 관리 도구 Lilli를 기업용으로 정식 출시했다. 이건 단순한 검색 도구가 아니다. 검색 → 이해 → 실행을 하나로 연결하는 AI 에이전트다. 기존의 사내 검색이 키워드 기반의 수동적 도구였다면, Lilli는 질문의 맥락을 이해하고 여러 소스에서 정보를 종합해 답변하는 능동적 시스템이다.

배경 — OpenAI가 직접 겪은 문제

Lilli는 원래 OpenAI 내부에서 사용하던 시스템이다. 직원 수가 500명에서 3,000명으로 급성장하면서, 사내 지식이 Slack, Google Drive, Notion, GitHub 등에 흩어져 관리가 불가능해졌다. 이른바 "지식 사일로(knowledge silo, 부서 간 정보가 단절된 상태)" 문제로, 급성장하는 테크 기업에서 공통적으로 겪는 병목이다.

OpenAI CTO Mira Murati(당시 재직)가 2024년 사내 해커톤(hackathon, 단기 집중 개발 행사)에서 시작한 프로젝트가 Lilli의 전신이다. "새로 입사한 엔지니어가 회사의 기존 결정을 이해하는 데 평균 3주가 걸린다"는 문제를 해결하기 위해 만들어졌다.

사내에서 6개월간 사용한 결과:

  • 신규 입사자 온보딩 시간 62% 단축
  • 내부 검색 쿼리 해결률 89% (기존 Slack 검색은 23%)
  • "이미 논의된 주제를 다시 논의하는" 회의 41% 감소

이 결과에 확신을 얻어 외부 출시를 결정했다.

핵심 기능 — 상세 분석

1. 멀티 소스 통합

Slack, Google Drive, GitHub, Confluence, Notion, Jira, Linear, Figma를 포함해 40개 이상의 엔터프라이즈 도구를 하나의 인터페이스로 연결한다.

기존 검색 도구와의 차이점:

  • Slack 검색: 키워드 매칭. "데이터베이스 마이그레이션"으로 검색하면 그 단어가 포함된 메시지만 반환
  • Lilli: "지난 Q3에 데이터베이스 아키텍처를 변경한 이유와 그때 고려했던 대안이 뭐였지?"라는 질문에 Slack 대화, 기술 문서, Jira 티켓을 종합해서 답변

2. 컨텍스트 유지 대화

이전 검색 맥락을 기억하고 후속 질문에 활용한다. 단순 Q&A가 아니라, 연구원이 동료에게 질문하듯 자연스러운 대화가 가능하다.

예시 대화 흐름:

  1. "우리 프로덕트의 인증 시스템은 어떻게 구현되어 있어?"
  2. → Lilli가 관련 기술 문서, 코드, Slack 논의를 종합해 답변
  3. "그럼 OAuth에서 SAML로 전환하려면 어떤 작업이 필요해?"
  4. → 앞선 답변의 컨텍스트를 유지하면서, 구체적인 변경 범위를 설명

3. 액션 실행

검색 결과를 바탕으로 직접 태스크를 생성하고 문서를 작성한다:

  • Jira/Linear에 티켓 자동 생성
  • 기술 문서 초안 작성
  • Slack 채널에 요약 공유
  • 미팅 안건 자동 생성

4. 권한 기반 접근 제어

기존 도구의 권한 체계를 그대로 존중한다. A 팀원이 볼 수 없는 B 팀의 문서는 Lilli를 통해서도 접근 불가. SSO/SAML 연동, SOC 2 Type II 인증 완료.

기술 아키텍처

Lilli는 GPT-4o를 기반으로 하되, RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인을 자체 최적화했다. 일반적인 RAG가 사용자 질문을 그대로 벡터 검색에 넘기는 데 비해, Lilli는 질문을 분석하고 여러 검색 전략을 동적으로 조합하는 에이전틱(agentic) 방식을 사용한다.

핵심 기술 차별점:

  • Hierarchical Indexing(계층적 인덱싱): 문서를 문장 → 단락 → 섹션 → 문서 → 프로젝트 수준으로 계층적 인덱싱. 질문의 범위에 따라 적절한 수준의 컨텍스트를 검색. "우리 인증 시스템 구조"처럼 넓은 질문에는 문서 수준, "OAuth 토큰 만료 설정값"처럼 구체적인 질문에는 문장 수준에서 검색한다
  • Temporal Awareness(시간 인식): "지난달", "Q3", "작년" 같은 시간 표현을 이해하고 시점별 정보를 구분. 문서의 생성일, 수정일, 논의 시점을 메타데이터로 관리한다
  • Entity Resolution(개체 해소): "DB", "데이터베이스", "RDS", "PostgreSQL"이 같은 맥락에서 같은 것을 의미하는지 자동 판별. 사내 약어나 프로젝트 코드명도 학습하여 해석한다

경쟁 환경

엔터프라이즈 지식 관리 시장은 $47B 규모이며 연 12% 성장 중이다 (Gartner, 2026).

제품 접근 방식 강점 약점
Lilli AI 에이전트 (대화형) 멀티소스 통합, 액션 실행 OpenAI 종속, 높은 가격
Glean AI 검색 엔진 기존 고객 기반 대화형 아님
Notion AI 문서 내 AI Notion 생태계 통합 Notion 외부 데이터 제한적
Confluence AI 문서 내 AI Atlassian 생태계 Jira/Confluence에 한정
Microsoft Copilot M365 통합 Office 생태계 비-MS 도구 통합 약함

가격 구조

  • Starter: 사용자당 월 $20 (5개 소스 연동, 월 500 쿼리)
  • Enterprise: 사용자당 월 $30 (무제한 소스, 무제한 쿼리, 액션 실행)
  • Enterprise Plus: 사용자당 월 $45 (전용 인프라, SLA 99.99%, 커스텀 모델 파인튜닝)
  • 무료 체험 14일

McKinsey의 2025 AI 리포트에 따르면, 지식 근로자가 정보 검색에 쓰는 시간은 주당 평균 9.3시간이다. Lilli가 이 시간의 60%를 절감한다면, 사용자당 연간 약 $15,000의 생산성 향상 효과가 있다. $30/월 대비 ROI는 명확하다.

초기 고객 반응

베타 기간 동안 참여한 기업들의 피드백:

  • Stripe: "새 엔지니어가 첫 PR을 올리기까지의 시간이 2주에서 3일로 줄었다"
  • Figma: "디자인 결정의 히스토리를 추적하는 데 Lilli가 가장 효과적이었다"
  • Scale AI: "내부 ML 실험 결과를 팀 전체가 즉시 검색할 수 있게 됐다"

리스크와 우려

  • 데이터 프라이버시: 기업의 민감한 내부 데이터가 OpenAI 서버를 거치는 것에 대한 우려가 크다. OpenAI는 "Enterprise 고객 데이터는 모델 학습에 사용하지 않는다"고 명시했지만, 금융이나 헬스케어 같은 규제 산업에서는 on-premise(자체 서버 설치) 옵션을 강력히 요구하고 있다. 특히 한국의 경우 개인정보보호법과 데이터 3법의 규제를 고려하면, 국내 기업 도입 시 데이터 국외 이전 이슈가 추가적으로 검토되어야 한다
  • 벤더 종속(vendor lock-in, 특정 공급사에 묶이는 현상): OpenAI의 API 가격 변동이나 서비스 중단에 대한 의존성. 한 번 도입하면 전사 워크플로우가 Lilli에 의존하게 되므로, 전환 비용(switching cost)이 높아지는 구조다. 참고로 OpenAI는 2025년에만 API 가격을 3차례 조정한 바 있다
  • 정확성: RAG 기반 시스템의 고질적 문제인 hallucination(환각 현상, AI가 사실이 아닌 정보를 그럴듯하게 생성하는 현상). OpenAI는 Lilli의 사실 정확도가 94.2%라고 밝혔지만, 나머지 5.8%가 의사결정에 직접 영향을 미치는 정보일 경우 치명적일 수 있다. 출처 표시(citation) 기능으로 일부 보완하지만, 사용자가 매번 출처를 확인하지는 않는다

관련 프로젝트와 배경 지식

RAG 기술의 진화

Lilli의 핵심인 RAG(Retrieval-Augmented Generation, 검색 증강 생성)는 2020년 Meta의 Patrick Lewis 팀이 제안한 기술이다. LLM이 학습 데이터에 없는 최신 정보나 비공개 정보를 다루기 위해, 외부 데이터를 검색해서 프롬프트에 주입하는 방식이다. 초기 RAG는 단순히 "검색 → 생성"의 2단계였지만, 2024~2026년 사이에 크게 발전했다:

  • Naive RAG (2020): 쿼리 → 벡터 검색 → LLM 생성
  • Advanced RAG (2023): 쿼리 리라이팅, 하이브리드 검색(벡터 + BM25), 리랭킹
  • Modular RAG (2024): 라우팅, 반복 검색, 자기 평가(self-evaluation)
  • Agentic RAG (2025~): 에이전트가 검색 전략 자체를 결정. Lilli가 이 단계

Perplexity Enterprise와의 비교

Perplexity도 2025년 말 기업용 검색 서비스를 출시했다. 차이점: Perplexity는 외부 웹 검색 + 내부 문서의 하이브리드 접근이고, Lilli는 내부 데이터에만 집중한다. 기업 보안 요구가 높은 곳에서는 Lilli의 접근이 유리하다.

기업용 AI 에이전트의 큰 그림

Gartner는 2028년까지 기업의 33%가 AI 에이전트를 통해 비즈니스 프로세스를 자동화할 것으로 예측한다. Salesforce의 AgentForce, ServiceNow의 Now Assist, Atlassian의 Rovo도 같은 시장을 노리고 있다. Lilli가 다른 점은 도구에 구애받지 않는 통합이다 — Salesforce는 Salesforce 생태계, ServiceNow는 ITSM에 한정되지만, Lilli는 40개 이상의 도구를 횡단한다.

시사점

기존 지식 관리 도구들이 "검색"에 머물렀다면, Lilli는 "검색 → 이해 → 실행" 까지 이어지는 흐름을 만들었다. 단순히 정보를 찾아주는 것을 넘어, 그 정보를 바탕으로 실제 업무 액션까지 연결해 주는 것이 기존 도구와의 근본적인 차이다.

더 큰 그림에서 보면, 이건 OpenAI의 B2B 전환 전략의 핵심 축이다. ChatGPT로 소비자 시장을 잡았다면, Lilli로 기업 시장에서 월 반복 수익(MRR, Monthly Recurring Revenue)을 확보하려는 것이다. OpenAI의 2025년 연간 매출이 $3.4B(약 4.5조 원)으로 추정되는데, 이 중 기업 매출 비중은 아직 30% 미만이다. Lilli는 이 비율을 끌어올릴 핵심 제품이다. 기업용 AI 에이전트 시장의 경쟁이 본격적으로 시작됐다.

출처

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지