최고 모델도 36.1%밖에 못 맞혔어 — OpenAI가 만든 생명과학 벤치마크 'LifeSciBench'의 충격
OpenAI가 6월 17일 생명과학 연구 능력을 평가하는 벤치마크 LifeSciBench를 공개했어. 173명의 박사급 과학자가 만든 750개 과제, 평균 25개 기준의 채점 루브릭으로 모델을 측정했는데 — 가장 잘하는 모델도 36.1%에 그쳤어. 'AI가 과학을 한다'는 말이 어디까지 진실인지 보여주는 자(尺)야.

"AI가 과학을 한다"는 말, 정확히 얼마나 진실일까
요즘 AI가 신약을 만들고 유전체를 분석한다는 이야기가 쏟아져. 그런데 그게 정확히 어느 수준일까? 데모 영상은 늘 멋있지만, '진짜 연구 과제'를 던졌을 때 모델이 얼마나 해내는지는 의외로 잘 측정된 적이 없어. OpenAI가 6월 17일 공개한 LifeSciBench는 바로 그 질문에 자(尺)를 들이댄 시도야.
결과부터 말하면 꽤 겸손해지는 숫자야. 가장 잘하는 모델도 750개 과제 중 36.1%만 통과했어. 세 문제 중 두 문제는 틀린다는 뜻이야. 이게 왜 중요하냐면, "AI가 곧 과학자를 대체한다" 같은 과열된 서사에 차가운 기준선을 제공하거든. 동시에 "그럼 AI는 쓸모없냐"는 반대편 극단도 막아줘. 36.1%는 0%가 아니니까. 어디까지 믿고 어디서부터 사람이 검증해야 하는지를 숫자로 보여주는 거야.
오늘은 LifeSciBench가 정확히 뭘 측정하는지, 기존 벤치마크와 뭐가 다른지, 그리고 이 36.1%라는 숫자를 어떻게 읽어야 하는지를 풀어볼게.
등장인물 — OpenAI, 173명의 과학자, 그리고 GPT-Rosalind
먼저 OpenAI. ChatGPT를 만든 회사지만, 이번엔 제품이 아니라 '평가 도구'를 내놨어. 자기 모델만 평가하는 게 아니라 여러 모델을 같은 잣대로 채점하는 공개 벤치마크라는 게 포인트야. 벤치마크를 만든다는 건 "우리가 이 분야의 기준을 정의하겠다"는 자리 선점의 의미도 있어.
다음은 173명의 박사급 과학자. LifeSciBench의 신뢰도는 바로 여기서 나와. 바이오테크·제약 연구 현장의 박사들이 직접 과제를 설계하고 채점 기준을 짰거든. 과제당 평균 25개의 채점 기준, 전체로는 19,020개의 기준이 동원됐어. 이건 "정답 하나 맞히면 끝"이 아니라, 답의 논리·근거·해석을 항목별로 뜯어보는 방식이야.
세 번째는 GPT-Rosalind. OpenAI의 생명과학 특화 모델인데, LifeSciBench에서 GPT-5.5, Grok 4.3, Gemini 3.1 Pro 같은 경쟁 모델을 제치고 1위를 했어. 다만 1위라고 해도 통과율이 36.1% 수준이라는 게 이 벤치마크의 핵심 메시지야. "현존 최고도 아직 갈 길이 멀다."
핵심 내용 — 기존 벤치마크와 뭐가 다른가
| 항목 | LifeSciBench |
|---|---|
| 과제 수 | 750개 |
| 설계자 | 173명 박사급 과학자 |
| 채점 방식 | 과제당 평균 25개 기준의 전문가 루브릭 (총 19,020개) |
| 평가 영역 | 근거 처리, 분석, 설계·최적화, 과학적 추론, 검증·운영, 번역·소통 |
| 최고 점수 | GPT-Rosalind, 약 36.1% 통과 |
| 입력 형태 | 유전체 시퀀스 파일, 화학 구조 파일, 실험 도표 등 |
표를 한 줄씩 보면 이 벤치마크의 야심이 보여. 우선 **'객관식이 아니다'**라는 점. 기존의 AI 생물학 벤치마크는 깔끔한 정답이 있는 객관식 문제가 많았어. 그런데 LifeSciBench는 자유 서술형이야. 모델이 길게 답을 쓰면, 전문가가 만든 루브릭으로 항목별로 채점하는 거지. 현실의 연구가 객관식이 아니듯, 평가도 현실을 닮게 만든 거야.
두 번째, 모델이 실제 과학 자료를 해석해야 한다는 점. 유전체 시퀀스 파일, 화학 구조 파일, 실험 도표 같은 걸 던져주고 거기서 의미를 끌어내게 해. 텍스트로 된 지식을 외워서 답하는 게 아니라, 진짜 연구자가 다루는 형태의 데이터를 읽어야 하는 거지. 이게 난이도를 확 끌어올리는 요인이야.
세 번째, 6개 영역으로 능력을 쪼갰다는 점. 근거 처리, 분석, 설계·최적화, 과학적 추론, 검증·운영, 번역·소통. 이렇게 나누면 "이 모델은 추론은 되는데 검증이 약하다" 식으로 강약점을 진단할 수 있어. 단일 점수보다 훨씬 쓸모 있는 지도야.
각자의 이득 — 누가 이 벤치마크를 반길까
제약·바이오 기업이 가장 직접적인 수혜자야. AI를 신약 개발에 도입하려는 회사들은 늘 "이 모델을 어디까지 믿어도 되나"라는 질문에 부딪혔거든. LifeSciBench는 그 질문에 데이터로 답해줘. 어느 영역에서 모델이 강하고 약한지를 알면, '사람이 검증해야 할 구간'을 정확히 설계할 수 있어. 무작정 믿거나 무작정 배척하는 대신.
AI 회사들에겐 명확한 개선 목표가 생겨. 36.1%라는 숫자는 "여기를 올려라"는 분명한 과녁이야. 특히 6개 영역별 점수가 나오니, 어느 능력을 보강해야 할지가 구체적으로 보이지. 벤치마크가 잘 만들어지면 그 분야 전체의 발전 방향을 끌어당기는 자석 역할을 해.
연구자·과학계에겐 '현실 점검'의 도구야. AI 과대 광고가 넘치는 시대에, 173명의 동료 과학자가 만든 엄정한 평가는 "지금 AI는 여기까지"라는 합의된 기준선을 제공해. 이건 과학계가 AI를 도구로 받아들이는 속도와 방식을 건강하게 조율하는 데 도움이 돼.
과거 유사 사례 — 벤치마크가 분야를 끌어온 역사
AI 역사에서 좋은 벤치마크는 종종 분야 전체를 끌어왔어. 이미지 인식의 ImageNet이 대표적이야. 명확한 평가 기준이 생기자 전 세계 연구자가 그 숫자를 올리려 경쟁했고, 그 경쟁이 딥러닝 혁명을 촉발했지. 언어 모델 쪽에선 MMLU 같은 벤치마크가 비슷한 역할을 했고. 좋은 벤치마크는 단순한 시험이 아니라 '연구의 방향을 정하는 나침반'이야.
성공한 벤치마크의 공통점은 '현실을 충분히 닮았다'는 거였어. 너무 쉬우면 금방 만점이 나와서 의미가 없고, 현실과 동떨어지면 점수가 높아도 실전에서 안 통해. LifeSciBench가 자유 서술형에 전문가 루브릭, 실제 과학 자료 입력까지 동원한 건 바로 이 '현실 닮기'에 공을 들였다는 신호야.
반대로 경계할 함정도 있어. 벤치마크가 권위를 얻으면, 회사들이 '그 시험에만 잘하도록' 모델을 튜닝하는 일이 벌어지거든(이른바 벤치마크 과적합). 36.1%라는 낮은 시작점은 역설적으로 건강해. 아직 '시험 잘 보기'로 점수를 끌어올린 게 아니라, 진짜 실력의 한계를 보여주는 거니까.
경쟁자 카운터 플레이 — 벤치마크 주도권 경쟁
OpenAI가 생명과학 벤치마크를 내놓은 것 자체가 전략적이야. 벤치마크를 만든다는 건 그 분야의 '평가 기준'을 자기가 정의한다는 뜻이고, 자기 모델(GPT-Rosalind)이 그 기준에서 1위를 한다는 건 마케팅 메시지로도 강력하거든. "우리가 정한 가장 엄정한 시험에서 우리 모델이 제일 잘한다"는 서사야.
경쟁 모델 진영(구글의 Gemini, xAI의 Grok 등)은 두 가지 선택지가 있어. 하나는 LifeSciBench 점수를 끌어올려 정면 경쟁하는 것, 다른 하나는 자기들만의 벤치마크나 평가 기준을 제시해 '룰 메이킹' 경쟁에 뛰어드는 것. AI 평가 영역에서 누가 표준을 쥐느냐는 모델 성능 못지않게 중요한 전선이 되고 있어.
다만 OpenAI가 공개 벤치마크로 냈다는 건 양날의 칼이야. 공개했으니 다른 회사들도 자기 모델을 측정해 비교할 수 있고, 만약 경쟁 모델이 GPT-Rosalind를 추월하면 그 사실도 같은 잣대로 드러나거든. 투명성은 신뢰를 주지만 동시에 위험도 감수하는 선택이야.
그래서 뭐가 달라지는데
제약·바이오 업계 종사자라면, 이번 벤치마크는 'AI를 어디까지 맡길지' 설계할 실질적 근거야. 36.1%라는 숫자와 6개 영역별 강약점을 보면, AI에게 1차 분석을 맡기되 핵심 판단은 사람이 검증하는 식의 워크플로를 합리적으로 짤 수 있어.
AI에 막연한 기대나 불안을 가진 일반인이라면, 이 숫자가 균형추가 돼. "AI가 곧 과학자를 대체한다"도, "AI는 다 거짓말이다"도 아닌, '현재 최고가 36.1% 수준'이라는 구체적 현실. 과대·과소 평가 둘 다 피하게 해줘.
연구자·학생이라면, LifeSciBench는 AI를 연구 보조 도구로 쓸 때의 신뢰 범위를 가늠하는 참고점이 돼. 잘하는 영역은 적극 활용하고, 약한 영역은 직접 검증하는 식으로.
한 걸음 더 — 36.1%라는 숫자를 해부하기
이 숫자를 제대로 읽으려면 '통과(pass)'의 의미부터 봐야 해. LifeSciBench의 채점은 과제당 평균 25개의 세부 기준으로 이뤄져. 즉 한 과제를 '통과'한다는 건 답이 그럴듯해 보이는 수준이 아니라, 근거·분석·해석·검증의 항목들을 두루 충족했다는 뜻이야. 그래서 36.1%라는 통과율은 "AI가 답을 36% 맞혔다"가 아니라 "전문가 기준을 두루 만족한 완결된 연구 답안을 36% 내놨다"에 가까워. 이 차이가 중요해. 일상적인 질문이라면 모델이 훨씬 높은 정확도를 보이지만, '연구급 완결성'을 요구하면 점수가 뚝 떨어지는 거지.
여기서 6개 영역별 분해가 진가를 발휘해. 모델이 어디서 강하고 어디서 무너지는지를 보여주거든. 일반적으로 LLM은 '근거 처리'나 '소통(설명)'처럼 텍스트 중심 능력에선 비교적 강하지만, '설계·최적화'나 '검증·운영'처럼 실제 실험 설계와 결과 검증이 얽힌 영역에선 약한 경향이 있어. 신약 개발로 치면, "이 논문을 요약하고 가설을 정리해줘"는 잘하지만 "이 실험 설계의 결함을 찾아 대안을 제시하라"에선 흔들린다는 얘기야. 이건 AI를 연구에 쓸 때 '어디까지 맡기고 어디서 사람이 개입할지'를 설계하는 데 직접적인 지침이 돼.
또 하나 주목할 건 입력 형태야. LifeSciBench는 모델에게 유전체 시퀀스 파일이나 화학 구조 파일, 실험 도표를 던져줘. 텍스트가 아닌 이런 '과학 원자료'를 해석하는 능력은 일반 챗봇 벤치마크에선 거의 측정되지 않던 부분이야. 현실의 연구자는 논문 텍스트만 읽는 게 아니라 raw data와 그래프를 들여다보거든. 이 영역에서 모델이 약하다는 건, '진짜 연구'와 '연구에 대한 글쓰기' 사이에 여전히 큰 간극이 있다는 증거야.
마지막으로, 36.1%라는 낮은 출발점은 역설적으로 이 벤치마크의 건강함을 보여줘. 만약 첫 공개부터 90%가 나왔다면, 그건 시험이 너무 쉽거나 현실과 동떨어졌다는 신호였을 거야. 어려운 시험일수록 개선의 여지가 명확하고, 그 여지를 채우려는 경쟁이 분야 전체를 끌어올려. ImageNet도 처음엔 오류율이 높았고, 그 숫자를 낮추려는 경쟁이 딥러닝 혁명을 만들었어. LifeSciBench가 같은 역할을 할 수 있을지가 앞으로의 관전 포인트야.
한 가지 더, 이 벤치마크는 'AI 신약 개발'을 둘러싼 과열된 기대에 현실적인 온도계를 들이대. 최근 몇 년간 "AI가 신약 후보를 몇 주 만에 찾아낸다"는 식의 서사가 투자와 주가를 끌어올렸어. 그런데 36.1%라는 숫자는 그 서사와 현실 사이의 간극을 보여줘. AI는 분명 신약 개발의 특정 단계 — 문헌 분석, 후보 물질 스크리닝, 가설 생성 — 를 가속할 수 있지만, 실험 설계의 결함을 잡아내거나 모순된 데이터를 해석하는 '연구자의 판단' 영역에선 아직 사람을 대체하지 못해. 이건 바이오 AI에 투자하는 쪽에도 중요한 신호야. "AI가 연구를 자동화한다"는 회사와 "AI가 연구자를 보조한다"는 회사는 전혀 다른 가치 평가를 받아야 하거든. LifeSciBench 같은 엄정한 벤치마크가 늘어날수록, 과장된 주장과 실제 역량을 가려내는 시장의 눈도 정교해질 거야. 결국 이런 평가 도구의 진짜 가치는 모델 순위를 매기는 데 있는 게 아니라, 'AI를 어디까지 믿을지'에 대한 사회 전체의 합의를 데이터에 근거해 만들어준다는 데 있어.
이 지점에서 LifeSciBench가 생명과학에 국한된 이야기가 아니라는 걸 알 수 있어. 같은 접근 — 현장 전문가가 만든 자유 서술형 과제, 항목별 루브릭, 실제 원자료 해석 — 은 법률, 의료 진단, 공학 설계, 금융 분석 같은 다른 전문 영역에도 그대로 적용될 수 있거든. 지금까지 AI 평가는 '정답이 깔끔한 객관식'에 치우쳐 있어서, 실제 전문가의 일을 얼마나 대신할 수 있는지를 제대로 못 보여줬어. LifeSciBench가 보여준 건 '진짜 전문가의 일'을 기준으로 삼으면 점수가 확 낮아진다는 현실이고, 이건 모든 전문 분야의 AI 도입에 똑같이 적용될 교훈이야. 그래서 이 벤치마크의 진짜 기여는 36.1%라는 숫자 하나가 아니라, '전문가의 일을 어떻게 평가할 것인가'라는 방법론 자체를 제시했다는 데 있어. 앞으로 다른 분야에서도 비슷한 '현실 닮은' 벤치마크가 줄지어 등장한다면, 그건 LifeSciBench가 깐 길 위를 걷는 셈이야.
그리고 173명의 박사가 참여했다는 사실 자체도 메시지야. AI 평가를 더 이상 엔지니어들끼리만 하지 않고, 그 분야의 진짜 전문가가 채점 기준을 짜기 시작했다는 거니까. 이건 'AI를 평가하는 일'이 기술의 문제에서 각 전문 분야의 문제로 확장되고 있다는 신호야. 의사가 의료 AI를, 변호사가 법률 AI를, 과학자가 연구 AI를 직접 평가하는 시대로 가는 거지. 그렇게 되면 AI의 능력에 대한 논의가 막연한 기대나 공포가 아니라, 각 분야 전문가들이 합의한 구체적 기준 위에서 이뤄질 수 있어. LifeSciBench는 그 전환의 한 사례일 뿐이고, 앞으로 이런 '전문가가 만든 잣대'가 AI 도입의 속도와 방향을 훨씬 건강하게 조율해줄 거야.
🥄 남은 궁금증 세 가지
— 그래서 나랑 무슨 상관이야? 바이오·제약·연구 분야에 있다면 상관 있어. AI를 어디까지 믿고 맡길지 설계하는 데 실질적 기준이 되니까. 그 외 분야라면 'AI 과학 능력의 현주소'를 가늠하는 참고치 정도야.
— 36.1%는 좋은 거야 나쁜 거야? 관점에 따라 달라. "겨우 36%"로 보면 아직 갈 길이 멀고, "벌써 36%"로 보면 빠른 진전이야. 핵심은 0%도 100%도 아니라는 것 — 사람의 검증이 여전히 필요한 단계라는 신호로 읽는 게 맞아.
— GPT-Rosalind가 1등이면 OpenAI가 최고인 거야? 단정하긴 일러. 자기들이 만든 벤치마크에서 자기 모델이 1등이라는 건 감안해서 봐야 해. 다만 공개 벤치마크라 다른 회사도 같은 잣대로 측정·비교할 수 있으니, 시간이 지나면 더 객관적인 그림이 나올 거야.
참고 자료
- Introducing LifeSciBench — OpenAI
- OpenAI Releases LifeSciBench, a 750-Task Benchmark — MarkTechPost
- OpenAI Life Science Benchmark Reveals AI Passes Only 1 in 3 Scientific Research Tasks — TechTimes
수치는 발표 시점 기준이라 바뀔 수 있어.
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.


